不止一种鲁棒性:用对抗样本欺骗 Whisper
最近,诸如 Whisper 之类的大型语音基础模型的发展使其在许多自动语音识别(ASR)应用中广泛使用。然而,我们证明了这些特殊令牌可以被对抗攻击利用以操纵模型的行为。我们提出了一种简单但有效的方法来学习 Whisper 的通用声学实现的 <endoftext> 令牌,当添加到任何语音信号之前时,鼓励模型忽略语音并仅转录特殊令牌,有效地 “静音” 模型。我们的实验证明,同一个通用的 0.64 秒对抗音频片段可以成功地使目标 Whisper ASR 模型在 97%以上的语音样本中静音。此外,我们发现这个通用的对抗音频片段通常可迁移到新的数据集和任务上。总的来说,这项工作证明了 Whisper 模型对 “静音” 对抗性攻击的脆弱性,其中这些攻击在现实世界的环境中既可能有风险,也可能有潜在的益处:例如,攻击可以用来绕过语音调节系统,或者反之,攻击也可以用来保护私人语音数据。
May, 2024
改进语音识别模型的鲁棒性需要从评估攻击转向系统化评估,通过在不同架构上评估代表性的对抗性攻击,我们发现不同攻击算法的相对强度在更改模型架构时会有相当大的差异,并且某些攻击的结果不能盲目信任,自我监督预训练等培训选择可显着影响鲁棒性。
Mar, 2022
使用前端适应网络来恢复数据包丢失,从而提高 ASR 模型的词错误率。在包丢失场景中,基于 Whisper 准则训练的适应网络显著降低了不同领域和语言的词错误率,同时对 Whisper 模型的基础性能影响很小,凸显了该方法在挑战性声学环境中提升 ASR 模型的实用性和潜力。
Jun, 2024
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
DistilWhisper 是一个轻量级模块化的 ASR 框架,通过语言专家和知识蒸馏的方式提高了 Whisper 的性能,同时保留了多任务和多语言预训练模型的鲁棒性,在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。
Nov, 2023
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
通过边缘自动语音识别 (ASR)技术,本研究提出了 PI-Whisper 框架,以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性,并在状态 - of-the-art 的准确性下降为主的情况下,提高 13.7%的识别准确率。
Jun, 2024
本文提出了 LoRA-Whisper 模型,通过将 LoRA 矩阵融入 Whisper,有效减轻多语种自动语音识别中的语言干扰,并通过利用 LoRA 和语言之间的相似性,在新语种上取得更好的性能,同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中,我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。
Jun, 2024
本文揭示了全局对抗音频扰动的存在,该扰动通过对自动语音识别系统的信号进行误转录。我们提出了一种算法来查找单个几乎不可感知的扰动,将其添加到任意语音信号中,很可能欺骗受害的语音识别模型。我们的实验表明,我们提出的技术可以将视觉安全的通用扰动用于最新的自动语音识别系统 - Mozilla DeepSpeech。此外,我们还通过在 WaveNet 基于的 ASR 系统上进行可迁移性测试,表明了这种扰动在未参与训练的模型上有相当广泛的应用。
May, 2019