检测音视频语音识别的对抗攻击

Dec, 2019

Detecting Adversarial Attacks On Audiovisual Speech Recognition

Pingchuan Ma, Stavros Petridis, Maja Pantic

TL;DR本研究提出了一种基于音频和视频流之间时间相关性的攻击检测方法，利用同步置信度得分作为音视频相关性代理来检测对音视频语音识别模型的对抗攻击，并在 GRID 和 LRW 数据集上的实验结果表明该方法是检测此类攻击的有效方式。

Abstract

adversarial attacks pose a threat to deep learning models. However, research on adversarial detection methods, especially in the multi-modal doma

发现论文，激发创造

本文旨在探索利用时间依赖性对抗音频示例的潜力，结果表明利用时间依赖性可以抵御音频对抗示例并提高语音识别系统的鲁棒性。

Sep, 2018

本篇论文针对语音分类模型进行了首次对抗攻击的研究，其算法成功实现了目标化攻击，并未改变人类听众对音频剪辑的感知。

Jan, 2018

该论文旨在研究多模态攻击下机器的多感官感知能力，针对多模态对抗攻击对视听事件识别任务的影响，提出弱监督声音定位模型并基于音视频相似性约束和外部特征存储器实现了一种反对抗防御方法，实验结果表明该方法可有效提高视听网络的鲁棒性。

Apr, 2021

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020

本研究提出了一种生成音频对抗样本的方法，可以在实际场景中攻击一种最先进的语音识别模型。通过模拟播放或录制的变换并将这些变换融合到生成过程中，我们得到的对抗样本具有鲁棒性，能够在不被人类察觉的情况下进行攻击，这表明所提出的音频对抗样本可能会成为一个真正的威胁。

Oct, 2018

本研究提出了一种新的对抗性训练方法，用于生成语音含量音频的不变潜在表示，以有效防止从录音的潜在特征检测语音活动，缓解了隐私泄露的问题。

Apr, 2023

本文研究了使用双领域对抗学习算法来解决音频视觉显著性预测中源域数据分布不一致与目标域数据性能降解问题，其方法包括建立与对齐声学特征分布、跨模态自注意力模块融合声学特征至视觉特征、降低视觉特征及融合后的音视频相关性中的领域差异等。实验结果说明该方法可以缓解由领域差异导致的性能下降问题。

Aug, 2022

本文研究基于深度神经网络的音频处理模型容易受到对抗攻击的问题，提出了在激活空间中应用异常模式检测技术来检测对抗性样本，并可以在不降低对良性样本性能的情况下检测出两种最新的对抗攻击，AUC 最高可达 0.98。

Feb, 2020

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

该研究针对深度伪造音视频的检测模型的挑战，提出了一种具有多模态融合和一类学习表示级正则化技术的方法，以解决方法的泛化问题和确保模型的可解释性。实验证明该方法对未见攻击的检测平均改进了 7.31%，同时提供了模型对伪造模态的识别结果。

Jun, 2024