Mar, 2024

通过去噪分数匹配实现多尺度对数密度估计的视频异常检测

TL;DR我们提出了一种新颖的视频异常检测方法:将从视频中提取的特征向量视为固定分布的随机变量的实现,并用神经网络对该分布进行建模,以便估计测试视频的可能性并通过阈值法检测视频异常。我们使用一种改进的去噪得分匹配方法来训练视频异常检测器,该方法通过向训练数据注入噪声来便于模型其分布。为了消除超参数选择,我们对不同噪声水平下的噪声视频特征的分布进行建模,并引入一种倾向于使不同噪声水平的模型保持一致的正则化器。在测试时,我们使用高斯混合模型将多个噪声尺度下的异常指示组合起来。我们的视频异常检测器运行时延最小,因为推理仅需要提取特征并将其通过浅层神经网络和高斯混合模型进行前向传播。我们对五个常用视频异常检测基准进行的实验表明,在面向对象和面向帧的设置下,我们的方法表现卓越。