重新评估对抗性语音中的噪声增强方法
本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示,以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性,尤其适用于仅针对少量噪声类别进行训练的情况。
Nov, 2016
本文研究生成对抗网络(Generative Adversarial Networks, GANs)在语音增强领域中的有效性,通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号,并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练(Multi-style Training, MTR)系统的7%错误率改进。
Nov, 2017
本文探讨了使用对抗性样本在训练语音识别系统中以增强深度神经网络声学模型的鲁棒性,结果表明相对于传统的数据通过数据转换技术实现的增强,动态利用当前声学模型参数生成对抗性样本的方法在Aurora-4和CHiME-4单通道实验中具有显著的改善表现。此外,将对抗性样本与老师/学生培训相结合,可以进一步提高识别准确率,Aurora-4相对误差率降低了23%。
Jun, 2018
本文揭示了全局对抗音频扰动的存在,该扰动通过对自动语音识别系统的信号进行误转录。我们提出了一种算法来查找单个几乎不可感知的扰动,将其添加到任意语音信号中,很可能欺骗受害的语音识别模型。我们的实验表明,我们提出的技术可以将视觉安全的通用扰动用于最新的自动语音识别系统- Mozilla DeepSpeech。此外,我们还通过在WaveNet基于的ASR系统上进行可迁移性测试,表明了这种扰动在未参与训练的模型上有相当广泛的应用。
May, 2019
本文使用先进的贝叶斯神经网络来检测对抗性噪声干扰下的自动语音识别系统,实验结果表明,该检测系统相对于当前现有的增强方法,可以提高2.77%至5.42%的检测率,并且可以将单词错误率降低5.02%至7.47%。
Feb, 2022
改进语音识别模型的鲁棒性需要从评估攻击转向系统化评估,通过在不同架构上评估代表性的对抗性攻击,我们发现不同攻击算法的相对强度在更改模型架构时会有相当大的差异,并且某些攻击的结果不能盲目信任,自我监督预训练等培训选择可显着影响鲁棒性。
Mar, 2022
本文研究了对抗性噪声下自动语音识别模型的鲁棒性。作者通过小幅度输入扰动,即使增加了最高45分贝的噪音,可以显著降低模型精度,甚至能够转录出所选目标句子。作者还证明了欺骗模型语言检测器可以极大地降低多语言模型的性能,强调了adversarially robust ASR的必要性。
Oct, 2022
音频对抗样本指对自动语音识别系统进行欺骗的音频文件,既能愚弄自动语音识别系统又能在人类听众中听起来正常。本文介绍了一种集成算法,在生成步骤中使用了心理声学模型和房间脉冲响应。我们通过三个实验比较不同方法的效果,包括在模拟环境和真实无线环境中评估鲁棒性,以及在人类研究中评估可感知性。我们的算法在考虑心理声学效果或结合鲁棒性时,信噪比和人类感知研究都有所改善,但错误率有所增加。
Oct, 2023
本文解决了自动语音识别(ASR)系统在面对多种现实世界噪声时的鲁棒性不足的问题。研究通过评估生物启发的声学特征,包括新提出的频率掩蔽谱图和伽马音叉谱图,展示了这些特征在提高ASR准确性和鲁棒性方面的潜力,尤其是在对抗攻击下的表现显著优于传统特征。
Sep, 2024
本研究解决了在现实应用中,自动语音识别(ASR)模型对输入扰动的鲁棒性不足的问题。我们提出了一种创新的方法,通过时间域的可转移攻击和语音感知梯度优化(SAGO),有效地增强了黑箱 ASR 模型的抗攻击能力。实验结果表明,在两个数据库的五个模型上,我们的方法显著优于基线方法。
Nov, 2024