消失的命令：使用声音掩蔽对自动语音识别系统进行欺骗攻击

Apr, 2022

消失的命令：使用声音掩蔽对自动语音识别系统进行欺骗攻击

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking

Jinghui Xu, Jifeng Zhu, Yong Yang

TL;DR深度学习技术发展促进了语音识别技术的性能提高，但是现有研究表明 DNN 对微小干扰敏感且容易产生误识别，这对被语音控制的智能语音应用来说极为危险。

Abstract

The development of deep learning technology has greatly promoted the performance improvement of automatic speech recognition (ASR) technology, which has demonstrated an ability comparable to human hearing in many

deep learning automatic speech recognition voice interfaces dnn false recognition

发现论文，激发创造

通过心理声学隐藏对自动语音识别系统进行对抗攻击

本文介绍了一种新型的基于心理声学隐蔽技术的对抗样本，利用 DNN 实现音频输入的提取并利用 backpropagation 算法实现对抗扰动的插入，成功攻击了最先进的语音识别系统，且人耳听不到插入的对抗扰动。

Aug, 2018

对抗样本攻击自动语音识别

本篇论文针对语音分类模型进行了首次对抗攻击的研究，其算法成功实现了目标化攻击，并未改变人类听众对音频剪辑的感知。

Jan, 2018

SoK：自动语音识别和说话人识别系统遭受攻击的概览

本研究探讨语音和说话人识别系统的漏洞，并提出一种分类方法来评估此类漏洞。实验表明，对这些模型的攻击普遍失败，因此需要进一步的工作来提供充分的缓解措施。

Jul, 2020

面向说话人识别系统的实时、通用和强鲁棒对抗攻击

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020

自然语音识别可视化 —— 提高理解的方法？

本文介绍了如何使用图像识别中的归因方法，结合音频数据，帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation（LRP）、Saliency Maps 和 Shapley Additive Explanations（SHAP）这三种可视化技术，展示了归因方法的优势和应用前景，包括在检测对抗性样本方面。

Feb, 2022

CommanderSong：一种系统化的实用对抗性语音识别方法

本文研究基于语音命令技术的系统安全问题，针对目前已有的攻击方式进行了分析，提出了一种新的潜在威胁，通过嵌入在音乐中的语音命令对 ASR 系统进行远程控制。研究者针对技术难点进行了创新性的技术突破，并针对此类攻击提出了一种新的缓解方案。

Jan, 2018

自然语言处理领域中语音识别系统的对抗性攻击综述

本文介绍 ASR 系统及其攻击方式，分别从白盒与黑盒两个方面探讨对其语音波形的扰动，重点关注攻击的不同实现方法及对系统的影响。

Aug, 2022

针对语音识别和说话人识别系统的实用隐藏语音攻击

本研究通过掌握音频信号处理算法背后的领域知识，成功实现了黑盒攻击，即针对声音处理系统注入隐藏命令，利用音频特征提取算法进行失真处理，从而攻击了 12 个机器学习模型，并在多个硬件配置中测试并证明其实效性。

Mar, 2019

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

深度迁移学习用于自动语音识别：迈向更好的泛化能力

本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究，以帮助学术和专业人士了解当前挑战，并识别论文中每个框架的优缺点。

Apr, 2023