去噪语言模型：将错误修正模型推向语音识别极限

May, 2024

去噪语言模型：将错误修正模型推向语音识别极限

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert...

TL;DR使用大量合成数据进行训练的缩放误差校正模型(Denoising LM)在自动语音识别(ASR)系统中实现了最先进的性能表现，通过合成语音进入ASR系统并与原始文本配对训练，DLM取得了1.5%的单词错误率(WER)以及在Librispeech上新的ASR性能记录，并展示了取代传统语言模型的潜力。

Abstract

language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. →

发现论文，激发创造

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

基于操作预测的ASR误差纠正方法

本文提出了一种利用纠错操作预测的ASR错误校正方法，该方法可降低解码过程的延迟，提高推理速度并维持相同水平的准确性。

Aug, 2022

PATCorrect：非自回归音素增强Transformer用于ASR误差校正

本文提出了一种基于Transformer模型和音素编码器的新型非自回归（NAR）纠错方法，该方法通过减少单词错误率（WER）来提高转录质量，并在不同的上游ASR系统中实现了鲁棒性能，特别是在GPU硬件上实现了与其他NAR模型相当的推断延迟，并且比自回归模型快4.2-6.7倍。

Feb, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准

采用外部巨大语言模型(LLMs)进行自动语音识别(ASR)错误订正的首个开源基准测试涵盖了超过334,000个N-best假设及相应准确转录数据对，通过三种不同程度标记的假设-转录对利用LLMs实现了显著的词错误率(WER)降低，实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力，从而纠正了N-best列表中缺失的标记，提供了一个基于LLMs的ASR错误订正的全新评估范式。

Sep, 2023

面向语音识别的纠错式语言模型训练

通过优先考虑易误识别词汇，使用大型语言模型进行纠错训练，以提高自动语音识别的性能，对于领域适应任务可获得相对5.5%的字词错误率降低。

Oct, 2023

D4AM：用于下游声学模型的通用去噪框架

在嘈杂环境中，声学模型的性能明显下降。本研究提出了一种用于各种下游声学模型的通用降噪框架D4AM，通过特定声学模型和相应的分类目标，用反向梯度调整语音增强模型并考虑回归目标作为辅助损失，该方法可以直接估计合适的权重系数，从而避免了额外的训练成本，并有效改善各种未知声学模型的性能。该框架在Google ASR API上进行实验，相对于直接使用嘈杂输入，取得了24.65%的相对WER降低，是首个实现回归和分类目标有效组合的通用预处理器适用于各种未知ASR系统的工作。

Nov, 2023

UCorrect：一种无监督的自动语音识别错误修正框架

自动语音识别（ASR）误差校正中，提出了一种不依赖于训练数据的无监督检测-生成-选择框架UCorrect，它能显著减少词语错误率（WER），无需微调可达6.83%，微调后可达14.29%，显著优于其他NAR修正模型，并具有竞争性的低延迟；同时，它是一种通用方法，可减少不同解码策略和不同规模数据集上训练的ASR模型的WER。

Jan, 2024

大型语言模型在噪声鲁棒性语音识别中的高效学习

通过引入噪声条件器和知识蒸馏方法，我们提出从N-best列表中提取语言空间噪声嵌入，以增强噪声鲁棒性和改善识别结果的方法。实验证明该方法在有限的训练数据下，可以获得高达53.9%的纠错率改善，表现出强大的语言空间降噪能力。

Jan, 2024

使用大型语言模型的自动语音识别错误纠正

本研究解决了自动语音识别（ASR）转录中的错误纠正模型的有效性问题，提出通过ASR N-best列表来构建高性能的错误纠正模型，从而提供更多上下文信息以改进纠正过程。实验表明，新方法在多个ASR系统上表现出色，并且能够应对不同ASR系统之间的迁移学习问题，具备零-shot错误纠正能力，具有广泛的应用潜力。

Sep, 2024