预训练语音模型的噪声干扰攻击和防御

Apr, 2024

预训练语音模型的噪声干扰攻击和防御

Noise Masking Attacks and Defenses for Pretrained Speech Models

Matthew Jagielski, Om Thakkar, Lun Wang

TL;DR对训练得到的语音模型和预训练的语音编码器进行噪声掩码攻击，恢复私密信息并研究对抗措施。

Abstract

speech models are often trained on sensitive data in order to improve model performance, leading to potential privacy leakage. Our work considers noise masking attacks, introduced by Amid et al. 2022, which attack automatic speech recognition (ASR) models by requesting a transcript of

speech models noise masking attacks automatic speech recognition asr models pretrained speech encoders

发现论文，激发创造

面对对抗攻击的自动语音识别模型最近的改进

改进语音识别模型的鲁棒性需要从评估攻击转向系统化评估，通过在不同架构上评估代表性的对抗性攻击，我们发现不同攻击算法的相对强度在更改模型架构时会有相当大的差异，并且某些攻击的结果不能盲目信任，自我监督预训练等培训选择可显着影响鲁棒性。

Mar, 2022

语音识别中的隐私保护对抗性表征学习：现实还是幻象？

本文旨在研究自动语音识别中隐私保护的问题，提出了利用深度编码器 - 解码器架构中的预训练技术来保护说话人身份，通过对开放和封闭说话人集的说话人识别和验证实验，论证了对抗训练架构可以显著减少封闭集的分类精度，提高个人隐私保护的效果。

Nov, 2019

训练要有所侧重：自监督语音识别模型的针对性、可迁移对抗样本

该论文研究了定向对抗攻击自我训练的自动语音识别模型，发现现代自我训练的自动语音识别模型容易受到对抗攻击的影响，进一步揭示了现代 ASR 体系结构的安全威胁。

Sep, 2022

引入噪声稳健性到预训练自动语音识别

提出了一种新的方法，即 Cleancoder 预处理架构，从 Conformer ASR 模型中提取隐藏激活，并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图，我们证明 Cleancoder 可以滤除语音中的噪声，从而改善了下游模型在嘈杂环境中的总词错误率（WER）。

Sep, 2023

言语内容屏蔽的探索性评估

最近的语音隐私研究主要集中在匿名化声学说话者属性，但对于保护语音内容的信息研究较少。本文引入了一个玩具问题，探讨了一种被称为 “内容隐藏” 的新型隐私保护方法，该方法隐藏了语音中的选定单词和短语。通过改变预训练的向量量化变分自编码器（VQ-VAE）生成的离散电话表示（电话代码）序列并通过 WaveRNN 重新合成的方法，我们评估了一个基准掩码技术。我们对三种不同的掩码位置和三种掩码策略进行了研究：噪声替换、单词删除和电话序列反转。我们着重研究了掩码对自动语音识别（ASR）和自动说话者验证（ASV）这两个后续任务的影响，并讨论了如何影响隐私目标的这些问题。

Jan, 2024

通过掩码重构无监督预训练双向语音编码器

提出了一种使用掩蔽重构损失进行预训练语音表示的方法，实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明，预训练、掩蔽段、领域适应都能提高语音识别性能。

Jan, 2020

通过心理声学隐藏对自动语音识别系统进行对抗攻击

本文介绍了一种新型的基于心理声学隐蔽技术的对抗样本，利用 DNN 实现音频输入的提取并利用 backpropagation 算法实现对抗扰动的插入，成功攻击了最先进的语音识别系统，且人耳听不到插入的对抗扰动。

Aug, 2018

消失的命令：使用声音掩蔽对自动语音识别系统进行欺骗攻击

深度学习技术发展促进了语音识别技术的性能提高，但是现有研究表明 DNN 对微小干扰敏感且容易产生误识别，这对被语音控制的智能语音应用来说极为危险。

Apr, 2022

基于 Transformer 的端到端语音识别语义掩码

提出了一种基于语义掩蔽的正则化方法，使用注意力机制的编解码器模型，以及 transformer-based 模型，以提升 E2E 模型的训练效果。通过实验验证，在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。

Dec, 2019

伪装即一切所需：评估和增强语言模型抵御伪装对抗攻击的鲁棒性

采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性，使性能下降最多为 5%。然而，模型的性能与鲁棒性之间存在一种权衡关系，进一步的研究仍然需要进行。

Feb, 2024