引入噪声稳健性到预训练自动语音识别

Sep, 2023

引入噪声稳健性到预训练自动语音识别

Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition

Patrick Eickhoff, Matthias Möller, Theresa Pekarek Rosin, Johannes Twiefel, Stefan Wermter

TL;DR提出了一种新的方法，即 Cleancoder 预处理架构，从 Conformer ASR 模型中提取隐藏激活，并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图，我们证明 Cleancoder 可以滤除语音中的噪声，从而改善了下游模型在嘈杂环境中的总词错误率（WER）。

Abstract

In recent research, in the domain of speech processing, large End-to-End (E2E) systems for automatic speech recognition (ASR) have reported state-of-the-art performance on various benchmarks. These systems intrinsically learn how to handle and remove noise conditions from speech. Previ

end-to-end systems automatic speech recognition denoising capabilities preprocessor network conformer asr model

发现论文，激发创造

预训练语音模型的噪声干扰攻击和防御

对训练得到的语音模型和预训练的语音编码器进行噪声掩码攻击，恢复私密信息并研究对抗措施。

Apr, 2024

自动语音识别端到端神经模型的鲁棒性分析

本文研究了预训练神经模型在自动语音识别中的鲁棒性，并对 wav2vec2，HuBERT 和 DistilHuBERT 进行了鲁棒性分析，发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同，同时进行了层次分析以预测每层的学习，通过误差传播和对比清晰和嘈杂的数据，验证了 Pasad 等人的预测，并提出未来研究的有趣方向。

Aug, 2022

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

利用前端适应网络增强 ASR 对丢包的鲁棒性

使用前端适应网络来恢复数据包丢失，从而提高 ASR 模型的词错误率。在包丢失场景中，基于 Whisper 准则训练的适应网络显著降低了不同领域和语言的词错误率，同时对 Whisper 模型的基础性能影响很小，凸显了该方法在挑战性声学环境中提升 ASR 模型的实用性和潜力。

Jun, 2024

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022