低资源语音识别中使用最小增强语言模型进行初始解码以提高格栅再评分

Mar, 2024

低资源语音识别中使用最小增强语言模型进行初始解码以提高格栅再评分

Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR

Savitha Murthy, Dinkar Sitaram

TL;DR通过在低资源语言中使用栅格重采样来提高语音识别准确性的问题，本文通过最小限度地利用目标语言中大型文本语料库中存在但基线模型中缺失的单词一元计数来改进基线语言模型，从而生成更全面的栅格。我们的方法在泰卢固语和卡纳达语分别获得了 21.8% 和 41.8% 的相对词错误率降低，这个降低与使用全维基百科文本增强的语言模型解码所获得的 21.5%（泰卢固语）和 45.9%（卡纳达语）相对词错误率降低相当，而我们的方法仅消耗 1/8 的内存。我们证明了我们的方法与基于文本选择的语言模型增强方法相当，并且对于不同规模的数据集一致。我们的方法适用于在语音数据和计算资源不足的低资源条件下训练语音识别系统，并且目标语言中有大型文本语料库的情况。我们的研究涉及解决基线的未登录词问题，而不专注于解决命名实体的缺失问题。我们的方法简单且计算成本较低。

Abstract

This paper addresses the problem of improving speech recognition accuracy with lattice rescoring in low-resource languages where the basel

speech recognition lattice rescoring low-resource languages language model augmentation word error rate

发现论文，激发创造

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

基于大规模互补神经语言模型的格栅重新评分

我们研究了使用大规模先进神经语言模型（NLMs）对自动语音识别（ASR）假设进行格栅再评分的效果。通过将最多 8 个 NLMs 进行组合，通过迭代式格栅生成，逐步改进给定格栅弧上的语言评分，我们逐渐降低 ASR 假设的错误。此外，我们还研究了在长篇演讲等持续语音的格栅序列中传递上下文信息（先前的再评分结果）的有效性。在使用演讲语料库进行实验时，通过组合这八个 NLMs 并使用上下文传递，我们相较于 ASR 一流基准线获得了 24.4% 的相对词错误率降低。另外，我们还进行了非迭代式的 NLM 组合和使用大规模 NLMs 的 100 最佳再评分的同时比较，验证了迭代式 NLM 组合进行格栅再评分的优势。

Dec, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

多语种图音融合 ASR 与大规模数据增强

本文介绍了一种单一的基于字形的 ASR 模型，采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习，能对七种语言进行无歧义的识别，并且比每个单一语言的 ASR 模型表现更佳。同时，我们还评估了多种数据增强的方法，并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言，还能大大提高 ASR 性能。

Sep, 2019

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

低资源语音到文本翻译

通过实验研究，我们发现在资源有限的情况下，从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度，并且在训练数据相对较少的情况下，仍然可以实现相对较高的词汇精度和召回率。

Mar, 2018

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

低资源环境下基于语言模型的上下文拼写纠错

通过训练小规模的基于词的 Transformer 语言模型，提取语料库中的概率性错误规则，结合语言模型和错误模型，通过嘈杂信道框架开发拼写校正模型，实验验证了该方法在尼泊尔语中的有效性。

Apr, 2024

基于预训练 ASR 模型的低资源语音转文本翻译策略

本文提出了改进低资源语音转文本翻译性能的技术和发现，实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化，CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验，确定了对改进低资源设置最有贡献的各种因素（初始化、目标和超参数）。在只有 300 小时的预训练数据下，模型在 Tamasheq - French 数据中取得了 7.3 的 BLEU 分数，比 IWSLT 2022 的先前发表作品高 1.6 个百分点。

May, 2023