Karla Markert, Donika Mirdita, Konstantin Böttinger
TL;DR本文研究比较德语与英语语音识别系统的攻击性漏洞,结果表明生成对抗样本所需的计算工作与其语言模型有关,并鼓励在 ASR 的鲁棒性分析中进一步研究与语言相关的特征。
Abstract
automatic speech recognition (ASR) systems are ubiquitously present in our
daily devices. They are vulnerable to adversarial attacks, where manipulated
input samples fool the ASR system's recognition. While adver
本文揭示了全局对抗音频扰动的存在,该扰动通过对自动语音识别系统的信号进行误转录。我们提出了一种算法来查找单个几乎不可感知的扰动,将其添加到任意语音信号中,很可能欺骗受害的语音识别模型。我们的实验表明,我们提出的技术可以将视觉安全的通用扰动用于最新的自动语音识别系统 - Mozilla DeepSpeech。此外,我们还通过在 WaveNet 基于的 ASR 系统上进行可迁移性测试,表明了这种扰动在未参与训练的模型上有相当广泛的应用。