音频 - 视觉异常检测的自我监督视频取证

CVPRJan, 2023

音频 - 视觉异常检测的自我监督视频取证

Self-Supervised Video Forensics by Audio-Visual Anomaly Detection

Chao Feng, Ziyang Chen, Andrew Owens

TL;DR提出一种基于异常检测的视频取证方法，通过训练自回归模型使用视频帧和声音的特征集来区分真实视频和人工篡改的视频，具有较强的检测能力。

Abstract

manipulated videos often contain subtle inconsistencies between their visual and audio signals. We propose a video forensics method, based on anomaly detection, that can identify these inconsistencies, and that can be trained solely using real, unlabeled data. We train an →

manipulated videos anomaly detection autoregressive model audio-visual features manipulated speech videos

发现论文，激发创造

通过自监督利用真实说话人脸实现鲁棒性防伪技术

本研究提出了一种基于真实对话视频的假脸检测技术，通过跨模态自监督学习得到时序稠密视频表示，鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策，并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。

Jan, 2022

交通视频中异常检测的音视频数据集和方法

介绍了第一个用于真实场景交通异常检测的音频 - 视觉数据集 MAVAD，并提出了一种名为 AVACA 的新方法，它通过交叉注意提取视频序列中的视觉和音频特征来检测异常。演示了音频的加入将 AVACA 方法提高了 5.2％的性能，并评估了图像匿名化的影响，结果表明此影响仅对性能平均下降 1.7％。

May, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

面向时间异常定位的基于一致性自监督学习

本文针对弱监督异常检测进行研究，利用自监督学习策略，通过对同一视频序列数据进行不同变换来使模型获得相同的分数，并通过实验证明这种对齐方式可以提高模型在 XD-Violence 数据集上的性能表现。

Aug, 2022

基于时空伪异常生成的视频异常检测：一种统一方法

通过使用预先训练的潜在扩散模型修复被屏蔽区域图像，并进一步通过混合来扰动光流以产生时间空间扭曲，提出了一种新的生成通用时空伪异常的方法。此外，通过学习重建质量、时间不规则性和语义不一致性等三种异常指标的简单统一框架，在开放集识别任务下检测现实世界的异常。在 Ped2、Avenue、ShanghaiTech 和 UBnormal 四个 VAD 基准数据集上进行了大量实验，证明我们的方法在 OCC 设置下的性能与其他现有的基于伪异常生成和重建的方法相当。同时我们的分析还检验了伪异常在这些数据集之间的可转移性和普适性，通过识别伪异常从而发现现实世界的异常提供了有价值的见解。

Nov, 2023

VideoForensicsHQ：检测高质量的经过篡改的人脸视频

本文提出了一种新的人脸视频伪造检测数据集和检测器，通过使用空间和时间特征的组合，可以更准确地检测和识别被肉眼难以发现的视频伪造，且该方法具有更好的检测准确性和泛化能力。

May, 2020