消音耳语：面向语音基础模型的通用声学对抗攻击

May, 2024

消音耳语：面向语音基础模型的通用声学对抗攻击

Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models

Vyas Raina, Rao Ma, Charles McGhee, Kate Knill, Mark Gales

TL;DR最近，诸如 Whisper 之类的大型语音基础模型的发展使其在许多自动语音识别（ASR）应用中广泛使用。然而，我们证明了这些特殊令牌可以被对抗攻击利用以操纵模型的行为。我们提出了一种简单但有效的方法来学习 Whisper 的通用声学实现的 <endoftext> 令牌，当添加到任何语音信号之前时，鼓励模型忽略语音并仅转录特殊令牌，有效地 “静音” 模型。我们的实验证明，同一个通用的 0.64 秒对抗音频片段可以成功地使目标 Whisper ASR 模型在 97％以上的语音样本中静音。此外，我们发现这个通用的对抗音频片段通常可迁移到新的数据集和任务上。总的来说，这项工作证明了 Whisper 模型对 “静音” 对抗性攻击的脆弱性，其中这些攻击在现实世界的环境中既可能有风险，也可能有潜在的益处：例如，攻击可以用来绕过语音调节系统，或者反之，攻击也可以用来保护私人语音数据。

Abstract

Recent developments in large speech foundation models like whisper have led to their widespread use in many automatic speech recognition (ASR) applications. These systems incorporate `special tokens' in their voc

whisper speech recognition adversarial attacks universal acoustic realization muting

发现论文，激发创造

不止一种鲁棒性：用对抗样本欺骗 Whisper

本文研究了对抗性噪声下自动语音识别模型的鲁棒性。作者通过小幅度输入扰动，即使增加了最高 45 分贝的噪音，可以显著降低模型精度，甚至能够转录出所选目标句子。作者还证明了欺骗模型语言检测器可以极大地降低多语言模型的性能，强调了 adversarially robust ASR 的必要性。

Oct, 2022

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

语音识别系统的通用对抗扰动

本文揭示了全局对抗音频扰动的存在，该扰动通过对自动语音识别系统的信号进行误转录。我们提出了一种算法来查找单个几乎不可感知的扰动，将其添加到任意语音信号中，很可能欺骗受害的语音识别模型。我们的实验表明，我们提出的技术可以将视觉安全的通用扰动用于最新的自动语音识别系统 - Mozilla DeepSpeech。此外，我们还通过在 WaveNet 基于的 ASR 系统上进行可迁移性测试，表明了这种扰动在未参与训练的模型上有相当广泛的应用。

May, 2019

通过心理声学隐藏对自动语音识别系统进行对抗攻击

本文介绍了一种新型的基于心理声学隐蔽技术的对抗样本，利用 DNN 实现音频输入的提取并利用 backpropagation 算法实现对抗扰动的插入，成功攻击了最先进的语音识别系统，且人耳听不到插入的对抗扰动。

Aug, 2018

研究 ASR 基础模型的新兴音频分类能力

使用 Whisper 这个 ASR 基础模型进行无监督音频分类，并通过去偏方法获得显著的性能提升。

Nov, 2023

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Jun, 2024

传递性探究：Whisper 语音表示在 “野外” 跨任务下游应用中的适用性

本文通过探究 Whisper 模型在 ASR 和其他四个语音任务中的泛化性以及在嘈杂环境下的鲁棒性，证明了其表现出色并具有实际应用价值。

May, 2023

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024