针对物理攻击的稳健音频对抗样本

IJCAIOct, 2018

针对物理攻击的稳健音频对抗样本

Robust Audio Adversarial Example for a Physical Attack

Hiromu Yakura, Jun Sakuma

TL;DR本研究提出了一种生成音频对抗样本的方法，可以在实际场景中攻击一种最先进的语音识别模型。通过模拟播放或录制的变换并将这些变换融合到生成过程中，我们得到的对抗样本具有鲁棒性，能够在不被人类察觉的情况下进行攻击，这表明所提出的音频对抗样本可能会成为一个真正的威胁。

Abstract

We propose a method to generate audio adversarial examples that can attack a state-of-the-art speech recognition model in the physical world. Previous work assumes that generated adversarial examples are directly

audio adversarial examples speech recognition physical attack playback environments listening experiment

发现论文，激发创造

自动语音识别中难以察觉、强韧和有目标的对抗样本

本论文通过利用听觉掩蔽原理，构造出在听觉上无法察觉的音频对抗样本，取得 100% 的针对性成功率，并且成功地构造出在真实环境噪音扰动下保持有效的针对性音频对抗样本。

Mar, 2019

音频对抗样本：针对语音转文本的有目标攻击

利用白盒迭代优化算法针对 Mozilla 的 DeepSpeech 实现针对性的音频对抗性样本进行攻击，成功率为 100％，这种攻击的可行性引入了研究对抗性样本的新领域。

Jan, 2018

对抗样本攻击自动语音识别

本篇论文针对语音分类模型进行了首次对抗攻击的研究，其算法成功实现了目标化攻击，并未改变人类听众对音频剪辑的感知。

Jan, 2018

鲁棒且不可察觉的音频对抗例子的综合算法

音频对抗样本指对自动语音识别系统进行欺骗的音频文件，既能愚弄自动语音识别系统又能在人类听众中听起来正常。本文介绍了一种集成算法，在生成步骤中使用了心理声学模型和房间脉冲响应。我们通过三个实验比较不同方法的效果，包括在模拟环境和真实无线环境中评估鲁棒性，以及在人类研究中评估可感知性。我们的算法在考虑心理声学效果或结合鲁棒性时，信噪比和人类感知研究都有所改善，但错误率有所增加。

Oct, 2023

音频对抗样本：利用语音面具的攻击

我们构造了针对自动语音转文字系统的音频对抗样本，并将其应用于五种最先进的语音转文字系统，实验证明这些对抗样本可以欺骗机器，但人类可以轻易地辨识出其中的话语。这一攻击的可行性为研究机器和人类对话语的感知提供了一个新的领域。

Feb, 2021

深度学习模型的鲁棒性物理攻击

该研究介绍了一种通用的攻击算法，RP2，用于在不同的物理条件下产生强大的视觉对抗扰动，以及一种用于评估物理对抗性的两阶段评估方法，通过黑白贴纸形式的扰动对真实的红绿灯进行攻击，在实验室测试和场地测试结果分别达到 100% 和 84.8% 的目标分类器的误分率。

Jul, 2017

使用对抗样本进行训练增强的鲁棒语音识别

本文探讨了使用对抗性样本在训练语音识别系统中以增强深度神经网络声学模型的鲁棒性，结果表明相对于传统的数据通过数据转换技术实现的增强，动态利用当前声学模型参数生成对抗性样本的方法在 Aurora-4 和 CHiME-4 单通道实验中具有显著的改善表现。此外，将对抗性样本与老师 / 学生培训相结合，可以进一步提高识别准确率，Aurora-4 相对误差率降低了 23%。

Jun, 2018

黑盒音频系统的有针对性对抗样本

本文采用进化算法和梯度估计两种方法，结合黑盒攻击策略（不知道模型结构和参数）实现对语音自动识别系统的针对性攻击，最终在保持音频文件相似度为 94.6% 的前提下，实现了 89.25% 的针对性攻击相似度。

May, 2018

针对实用人脸识别系统的强力物理对抗样本

本文旨在提高面部识别系统的物理攻击强度。通过使用新的平滑损失函数和 Patch-noise 结合的攻击方法，生成更加平滑且具有更强的物理攻击强度的对抗样本。实验结果表明，相比传统技术，使用平滑性损失的物理拆迁方法可以提高 1.17 倍的平均攻击成功率（ASR），而 Patch-noise 结合的攻击方法可以实现 2.39 倍的 ASR 提升。

Mar, 2022

面向说话人识别系统的实时、通用和强鲁棒对抗攻击

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020