音频 - 视觉异常检测的自我监督视频取证
本研究提出了一种基于真实对话视频的假脸检测技术,通过跨模态自监督学习得到时序稠密视频表示,鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策,并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。
Jan, 2022
介绍了第一个用于真实场景交通异常检测的音频 - 视觉数据集 MAVAD,并提出了一种名为 AVACA 的新方法,它通过交叉注意提取视频序列中的视觉和音频特征来检测异常。演示了音频的加入将 AVACA 方法提高了 5.2%的性能,并评估了图像匿名化的影响,结果表明此影响仅对性能平均下降 1.7%。
May, 2023
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技术,准确率和 AUC 分别提高了 14.9% 和 9.9%。
Jun, 2024
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
基于多模态自我监督学习(SSL)特征提取器的多模态视频伪造检测方法,利用音频和视觉模态之间的不一致性来提取视觉和声学特征,并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性,实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。
Nov, 2023
本文针对弱监督异常检测进行研究,利用自监督学习策略,通过对同一视频序列数据进行不同变换来使模型获得相同的分数,并通过实验证明这种对齐方式可以提高模型在 XD-Violence 数据集上的性能表现。
Aug, 2022
通过使用预先训练的潜在扩散模型修复被屏蔽区域图像,并进一步通过混合来扰动光流以产生时间空间扭曲,提出了一种新的生成通用时空伪异常的方法。此外,通过学习重建质量、时间不规则性和语义不一致性等三种异常指标的简单统一框架,在开放集识别任务下检测现实世界的异常。在 Ped2、Avenue、ShanghaiTech 和 UBnormal 四个 VAD 基准数据集上进行了大量实验,证明我们的方法在 OCC 设置下的性能与其他现有的基于伪异常生成和重建的方法相当。同时我们的分析还检验了伪异常在这些数据集之间的可转移性和普适性,通过识别伪异常从而发现现实世界的异常提供了有价值的见解。
Nov, 2023
本文提出了一种新的人脸视频伪造检测数据集和检测器,通过使用空间和时间特征的组合,可以更准确地检测和识别被肉眼难以发现的视频伪造,且该方法具有更好的检测准确性和泛化能力。
May, 2020