预训练语音模型的噪声干扰攻击和防御
改进语音识别模型的鲁棒性需要从评估攻击转向系统化评估,通过在不同架构上评估代表性的对抗性攻击,我们发现不同攻击算法的相对强度在更改模型架构时会有相当大的差异,并且某些攻击的结果不能盲目信任,自我监督预训练等培训选择可显着影响鲁棒性。
Mar, 2022
本文旨在研究自动语音识别中隐私保护的问题,提出了利用深度编码器 - 解码器架构中的预训练技术来保护说话人身份,通过对开放和封闭说话人集的说话人识别和验证实验,论证了对抗训练架构可以显著减少封闭集的分类精度,提高个人隐私保护的效果。
Nov, 2019
该论文研究了定向对抗攻击自我训练的自动语音识别模型,发现现代自我训练的自动语音识别模型容易受到对抗攻击的影响,进一步揭示了现代 ASR 体系结构的安全威胁。
Sep, 2022
提出了一种新的方法,即 Cleancoder 预处理架构,从 Conformer ASR 模型中提取隐藏激活,并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图,我们证明 Cleancoder 可以滤除语音中的噪声,从而改善了下游模型在嘈杂环境中的总词错误率(WER)。
Sep, 2023
最近的语音隐私研究主要集中在匿名化声学说话者属性,但对于保护语音内容的信息研究较少。本文引入了一个玩具问题,探讨了一种被称为 “内容隐藏” 的新型隐私保护方法,该方法隐藏了语音中的选定单词和短语。通过改变预训练的向量量化变分自编码器(VQ-VAE)生成的离散电话表示(电话代码)序列并通过 WaveRNN 重新合成的方法,我们评估了一个基准掩码技术。我们对三种不同的掩码位置和三种掩码策略进行了研究:噪声替换、单词删除和电话序列反转。我们着重研究了掩码对自动语音识别(ASR)和自动说话者验证(ASV)这两个后续任务的影响,并讨论了如何影响隐私目标的这些问题。
Jan, 2024
提出了一种使用掩蔽重构损失进行预训练语音表示的方法,实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明,预训练、掩蔽段、领域适应都能提高语音识别性能。
Jan, 2020
本文介绍了一种新型的基于心理声学隐蔽技术的对抗样本,利用 DNN 实现音频输入的提取并利用 backpropagation 算法实现对抗扰动的插入,成功攻击了最先进的语音识别系统,且人耳听不到插入的对抗扰动。
Aug, 2018
深度学习技术发展促进了语音识别技术的性能提高,但是现有研究表明 DNN 对微小干扰敏感且容易产生误识别,这对被语音控制的智能语音应用来说极为危险。
Apr, 2022
提出了一种基于语义掩蔽的正则化方法,使用注意力机制的编解码器模型,以及 transformer-based 模型,以提升 E2E 模型的训练效果。通过实验验证,在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。
Dec, 2019
采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性,使性能下降最多为 5%。然而,模型的性能与鲁棒性之间存在一种权衡关系,进一步的研究仍然需要进行。
Feb, 2024