语言无关端到端自动语音识别的迁移学习与语言模型融合

Nov, 2018

语言无关端到端自动语音识别的迁移学习与语言模型融合

Transfer learning of language-independent end-to-end ASR with language model fusion

Hirofumi Inaguma, Jaejin Cho, Murali Karthick Baskar, Tatsuya Kawahara, Shinji Watanabe

TL;DR本文探讨了一种更好的适应低资源语言的方法，采用外部语言模型（LM）在转移学习框架下。通过在共享词汇表的统一序列到序列（S2S）架构中构建语言无关的 ASR 系统，并在整个适应阶段将外部 LM 集成到基于注意力的 S2S 模型的解码器网络中的 LM 融合转移来有效地融合目标语言的语言上下文。作者还研究了各种用于转移学习的种子模型。实验评估使用 IARPA BABEL 数据集表明，当外部文本数据可用时，LM 融合转移比简单转移学习改善了所有五种目标语言的性能。最终系统使混合系统的性能差距大大降低。

Abstract

This work explores better adaptation methods to low-resource languages using an external language model (LM) under the framework of

adaptation methods low-resource languages external language model transfer learning sequence-to-sequence architecture

发现论文，激发创造

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

从语言模型向序列到序列语音识别中迁移拼写知识：向教师学拼写

本文提出了一种基于知识蒸馏的训练方法，将外部语言模型集成到序列到序列语音识别系统中，通过递归神经网络语言模型生成软标签来指导序列到序列模型的训练，以此来降低字符错误率。

Jul, 2019

终端到终端音频识别的声学模型融合

最近在深度学习和自动语音识别（ASR）方面的进展使得端到端（E2E）ASR 系统成为可能，并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中，以更好地解决领域不匹配问题，并取得了显著的词错误率降低，尤其在增强命名实体识别方面效果明显。

Oct, 2023

多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

在大模型时代，解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统，有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来，在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8％和 3.6％。此外，我们的综合消融研究分析了关键参数，如 LLM 大小、上下文长度、词汇大小、融合方法等。例如，我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。

Jan, 2024

将外部语言模型融入到序列到序列模型的分析

本研究研究了基于注意力机制的序列到序列模型中对于浅层融合仿照外部语言模型在多种语言模型、不同的解码单元和不同任务下的一系列行为。在 Google 语音搜索中，我们证明使用基于字单位的神经语言模型和浅层融合可以相对于具有竞争力的注意力机制序列到序列模型将单词错误率降低了 9.1%，避免了需要进行第二遍 rescoring 操作。

Dec, 2017

用单个 Transformer 实现多语言低资源语音端到端识别

本文利用单个 transformer 模型及语言符号，针对低资源语言进行多语言语音识别，相较于 SHL-MLSTM 具有较高的识别精度。

Jun, 2018

从大型语言模型到端到端自动语音识别系统的多重表示迁移

通过多重表示的大型语言模型的转移，我们研究了一种将语言学知识整合到端到端自动语音识别系统中的有效技术，证明了这种方法是传输单一表示的有效替代方案。

Sep, 2023

利用大型语言模型进行零样本 ASR 领域自适应的语料合成

提出了一种新的自适应 ASR 模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%，且源领域性能无降低。

Sep, 2023

低预算下的语音识别迁移学习

通过模型自适应的迁移学习方法，将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中，实现了在受限 GPU 内存、吞吐量和训练数据的情况下，基于消费级硬件实现更快的训练，同时减少了训练数据量，从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。

Jun, 2017