通过 WavAugment 引导的音素对抗训练实现鲁棒的自动语音识别

Jul, 2023

通过 WavAugment 引导的音素对抗训练实现鲁棒的自动语音识别

Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training

Gege Qi, Yuefeng Chen, Xiaofeng Mao, Xiaojun Jia, Ranjie Duan...

TL;DR提出了一种新的 WavAugment Guided Phoneme Adversarial Training (wapat) 方法，利用对手示例在音素空间中进行增强，使模型对音素表示中的细微波动具有不变性，并在保持对清洁样本的性能的同时提高了泛化能力，在 End-to-end Speech Challenge Benchmark (ESB) 上取得了 state-of-the-art 的效果，SpeechLM-wapat 在 ESB 上将识别错误率降低了 6.28%。

Abstract

Developing a practically-robust automatic speech recognition (ASR) is challenging since the model should not only maintain the original performance on clean samples, but also achieve consistent efficacy under small volume perturbations and large domain shifts. To address this problem,

automatic speech recognition adversarial training phoneme space augmentation generalization

发现论文，激发创造

使用对抗样本进行训练增强的鲁棒语音识别

本文探讨了使用对抗性样本在训练语音识别系统中以增强深度神经网络声学模型的鲁棒性，结果表明相对于传统的数据通过数据转换技术实现的增强，动态利用当前声学模型参数生成对抗性样本的方法在 Aurora-4 和 CHiME-4 单通道实验中具有显著的改善表现。此外，将对抗性样本与老师 / 学生培训相结合，可以进一步提高识别准确率，Aurora-4 相对误差率降低了 23%。

Jun, 2018

使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别

本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能，具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充，以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法，本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率，相比只针对健康数据训练的基础模型，实现了 81.8% 的 WER 提升，并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。

Jun, 2023

MIXPGD: 语音识别系统的混合对抗训练

本文提出 mixPGD 对抗训练方法以提高基于深度神经网络的自动语音识别系统的鲁棒性，实验表明该方法比以前的最佳模型在白盒对抗攻击设置下性能提高了 4.1％WER，并且在黑盒攻击设置下也表现出一定的防御能力。

Mar, 2023

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

PATCorrect：非自回归音素增强 Transformer 用于 ASR 误差校正

本文提出了一种基于 Transformer 模型和音素编码器的新型非自回归（NAR）纠错方法，该方法通过减少单词错误率（WER）来提高转录质量，并在不同的上游 ASR 系统中实现了鲁棒性能，特别是在 GPU 硬件上实现了与其他 NAR 模型相当的推断延迟，并且比自回归模型快 4.2-6.7 倍。

Feb, 2023

SpecAugment：一种简单的自动语音识别数据增强方法

通过在神经网络的特征输入（即滤波器组系数）中直接应用声音数据扩充方法 SpecAugment - 扭曲特征，掩盖一定数量的频道块以及时间步长，我们在端到端的语音识别任务上实现了最先进的性能，超过了所有以前的工作。

Apr, 2019

使用 S3PRL 工具包进行语音数据增强方法比较

本文使用 S3PRL toolkit 比较不同的数据增强策略，包括 SpecAugment，Gaussian Noise 和 Speed Perturbation，探讨了 HuBERT 和 wav2vec 在 Phoneme Recognition 和 Automatic Speech Recognition 任务中的表现，结果表明使用数据增强可以提高模型的鲁棒性。

Feb, 2023

通过扩散 GAN 提升无监督语音识别

使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Mar, 2023

突破数据屏障：通过对抗稳定性训练实现鲁棒性语音翻译

本文提出了一种通过对编码器和解码器同时采用对抗学习和数据增强，使得神经机器翻译模型更加鲁棒处理语音识别误差的训练架构，并在 IWSLT2018 语音翻译任务上实现了与自然文本几乎相当的结果，在有识别噪声的 ASR 输出上比基准系统高 2.83 个 BLEU 分数。

Sep, 2019

PhasePerturbation: 语音数据增强通过相位扰动的自动语音识别

本文提出了一种名为 PhasePerturbation 的新型语音数据增强方法，利用动态的语音相位谱操作，通过随机化、频率遮蔽和时间遮蔽来增加语音数据的多样性。在 wav2vec2.0 预训练的 ASR 模型上，通过将模型与经过 PhasePerturbation 增强的 TIMIT 语料进行微调，实验证明相比没有增强操作的基准模型，词错误率（WER）相对降低了 10.9％。此外，通过结合基于振幅谱的增强方法 Vocal Tract Length Perturbation（VTLP）和 SpecAug，所提出的方法在 WER 上进一步提升了 12.9％和 15.9％，凸显了 PhasePerturbation 改进当前基于振幅谱的增强方法的能力。

Dec, 2023