ICCV 2023 | MoCoDAD：一种基于人体骨架的运动条件扩散模型，实现高效视频异常检测

视频异常检测（Video Anomaly Detection，VAD）扩展自经典的异常检测任务，由于异常情况样本非常少见，因此经典的异常检测通常被定义为一类分类问题（One-Class Classification，OCC）。而对于VAD而言，属于异常情况的样本更是非常罕见，因此常见的方法仅使用大量的正常样本进行训练，这些方法会将正常视频的隐藏特征限制在一个有限的空间内，然后通过距离、概率分布差异、重构和预测误差等度量方式将空间之外的样本检测为异常。

本文介绍一篇发表在ICCV 2023上的工作，提出了一种全新的视频异常检测方法，称为运动条件引导的扩散模型MoCoDAD。该模型主要针对于视频中人体的骨骼表示进行建模，并假设视频中出现的正常现象与异常现象都是多模态的，提出使用扩散模型来对人体未来姿态进行预测。通过将视频中行人的历史运动作为条件，利用扩散过程中的迭代更新机制来拟合人体运动并生成未来帧，当生成的运动骨架信息与真实未来运动骨架信息差异较大时，就可以认定为检测到异常。作者在4个标准的人体骨架视频异常检测基准：UBnormal、HR-UBnormal、HR-STC和HR-Avenue上进行了大量的实验，证明MoCoDAD已达SOTA效果。

论文链接：

https://arxiv.org/abs/2307.07205

一、引言

虽然计算机视觉近些年发展非常迅速，但视频异常检测仍然是一项具有挑战性的任务，这其中主要有两大原因：

（1）异常的定义非常主观，并且通常会根据上下文和应用场景的改变而变化，因此很难对其进行普遍定义。

（2）异常事件本质上是罕见的，正常事件的数据量很庞大，而异常事件数据则非常稀少，有严重的数据不平衡问题。

为了解决数据稀缺的问题，现有的模型通常仅从正常样本中学习（也称为一类分类），也有学者将这种方式称为半监督学习。本文基于这种背景提出了一种运动条件引导的扩散模型（Motion Conditioned Diffusion Anomaly Detection，MoCoDAD），它假设正常和异常都是多模态的。给定一个运动序列，无论是正常的还是异常的，都首先将序列进行分割，随后将未来帧退化为随机噪声。以第一个（历史帧）清晰输入帧作为条件，MoCoDAD会对其进行多模态重建。随后在通过比较多模态分布来区分正常和异常。在正常情况下，MoCoDAD生成的运动是多样且与真实情况相关的。而在异常的情况下，模型生成的运动虽然也具有一定的多样性，但缺乏针对性。

上图展示了MoCoDAD对正常和异常示例生成未来帧的效果对比，其中红色（右）和绿色（左）分别代表异常和正常的示例。在图中底部还可视化了50个未来帧的特征向量，虚线轮廓表示当前输入序列所处的分布范围，其中的红点表示与当前预测帧所对应真实帧的特征向量，在正常情况下，真实帧会处在分布的中间区域，且预测结果与真实帧是相关的。在异常情况下，真实帧会处于分布的尾部，这会产生较差的预测，并且可以突出异常现象。

二、本文方法

MoCoDAD基于去噪扩散概率模型（DDPM），并在其基础上通过对人体运动学特征进行建模，并通过人体骨架轨迹点信息作为基本单元，通过随机平移的方式来更新每一帧的身体关节坐标进行预测。

2.1 模型架构

下图展示了MoCoDAD模型的整体架构，分为两个主要模块：（1）前向轨迹扩散模型和（2）运动条件引导自编码器。其中扩散模型使用橙色块表示，其任务是根据输入序列帧来估计其中退化噪声，从而重建实际的未来帧。作者仿照先前工作AnoDDPM[1]，将这一部分设置为基于U-Net的架构。随后前向扩散网络会逐渐收缩，然后将生成的姿势序列拓展到与输入序列大小相同的空间尺寸。此外，考虑到输入序列的时序维度，作者使用时空可分离GCN（STS-GCN）[2]来构建U-Net扩散层。

2.2 前向轨迹扩散模型

2.3 运动条件引导自编码器

MoCoDAD之所以可以对视频中人体的异常行为进行检测，很大一部分原因是其将运动先验作为扩散模型的条件信息，即，考虑输入人体骨架运动的一部分（历史姿态信息）来指导扩散过程来预测未来的姿势。

三、实验效果

本文在四个标准的视频异常检测数据集上进行了实验，分别是UBnormal、HR-UBnormal、HR ShanghaiTech Campus(HR-STC)和HRAvenue。其中UBnormal数据集为计算机合成数据集。其余三个数据集均为在真实监控场景中捕获的视频。模型的评价指标选用ROC-AUC。作者选取了包含MPED-RNN、GEPC、SSMTL++和COSKAD等在内的8个常见的视频异常检测算法进行实验对比，实验效果如下表所示。

上表中前四种方法由于使用了异常片段的标签进行训练，因此不在OCC方法的范畴内（很多文献将这类方法称为弱监督方法），直接与本文方法进行对比不公平。可以看到MoCoDAD仍然取得了最好的效果，相比于同类方法COSKAD，本文方法在两个数据集上性能分别提高了3.6%和2.9%。甚至与弱监督方法相比，MoCoDAD也有非常明显的优势，例如与TimeSFormer相比，本文方法的性能基本与其持平，但参数仅为288K，而TimeSFormer的参数高达121M。

为了进一步分析扩散过程对视频异常检测性能的影响，作者对扩散模型生成代数 m和异常分数S的聚合策略进行了消融分析，如上图所示，图左侧表示四种不同聚合策略得到的重构误差直方图，图右测展示了模型检测AUC分数与生成代数之间的相关性，其中每条曲线对应不同的聚合统计量。

四、总结

本文基于扩散模型提出了一种新型的视频异常检测方法MoCoDAD，作者强调，他们首次将扩散模型技术引入到这一领域，通过对人体骨架序列运动情况进行分析，MoCoDAD可以高效的理解画面中人体的运动趋势，在正常情况下，模型就可以根据观察到的历史序列对未来序列进行预测。而在异常情况下，模型在异常运动信息的引导下，会展现出与真实未来序列的偏差，通过这一偏差，就可以精确的实现异常动作的检测。此外由于MoCoDAD无需任何像素外观信息，仅对人体骨架信息进行计算，可以实现轻量化的网络设计和更好的计算效率。

参考

[1 Julian Wyatt, Adam Leach, Sebastian M. Schmon, and Chris G. Willc cks. Anoddpm: Anomaly detection with denoising diffusion probabilistic models using simplex noise. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, pages 650–656, June 2022.

[2] Theodoros Sofianos, Alessio Sampieri, Luca Franco, and Fabio Gala so. Space-time-separable graph convolutional network for pose forecas ing. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11209–11218, 2021.

作者：seven_

ICCV 2023 | MoCoDAD：一种基于人体骨架的运动条件扩散模型，实现高效视频异常检测

一、引言