分解转导模型的有效内部语言模型训练和融合

Apr, 2024

分解转导模型的有效内部语言模型训练和融合

Effective internal language model training and fusion for factorized transducer model

Jinxi Guo, Niko Moritz, Yingyi Ma, Frank Seide, Chunyang Wu...

TL;DR基于因子化转导模型的新型内部语言模型 (ILM) 训练和解码策略，在 LibriSpeech 数据集上相对于标准解码方法获得了 17% 的相对改进，并与外部语言模型融合强化的强 RNN-T 基线相比，在一般集上获得了 5.5% 的相对改进和对于罕见单词的 8.9% WER 降低。该模型在无需依赖外部语言模型的情况下，达到了优秀的性能，非常适用于生产用例，并提出了一种新颖且内存高效的 ILM 融合意识的最小词误差率 (MWER) 训练方法来进一步提升性能。

Abstract

The internal language model (ILM) of the neural transducer has been widely studied. In most prior work, it is mainly used for estimating the ILM score and is subsequently subtracted during inference to facilitate improved integration with →

internal language model factorized transducer models ilm training decoding strategy external language models

发现论文，激发创造

基于分解神经传输器的外部语言模型集成

本文提出一种基于外部语言模型的分解神经传输器（FNT）适应方法，通过浅层融合和基于类别的 n-gram 语言模型的集成，取得了最高 60% WERR 的新增收益。

May, 2023

文本领域适应的改进因式化神经转导模型

通过设立独立语料库解码器预测词汇，改进因式神经变换器（IFNT）模型结构综合整合声学和语言信息，实现有效的文本适应，并在实验中展现了相对于标准神经变换器与浅层融合模型的 7.9% 至 28.5% 的相对词误率改善和相对于 FNT 模型的 1.6% 至 8.2% 的词误率降低。

Sep, 2023

基于语言模型整合的传声器语音识别的实证研究

在端到端的 RNN-Transducer（RNN-T）中使用仅文本数据是具有挑战性的，本文研究了使用密度比和内部语言模型（ILM）估计的方法来将外部语言模型（ELM）集成到 RNN-T 中以实现语音识别，并提出了一种低阶密度比方法（LODR），在 LibriSpeech，Tedlium-2，WenetSpeech 和 AISHELL-1 数据集上的大量实验表明，LODR 始终优于 SF，在大多数测试中表现优于 DR 且一般性能接近 ILME。

Mar, 2022

领域适应端到端语音识别的内部语言模型估计

提出了一种内部语言模型估计（ILME）方法，用于在无需额外模型训练的情况下，更有效地集成外部 LM 并改善端到端自动语音识别中的域不匹配问题，包括最受欢迎的循环神经网络转录器（RNN-T）和基于注意力的编码器 - 解码器（AED）模型。

Nov, 2020

基于内部语言模型估计的适应性语言模型融合用于领域自适应

本文提出了一种基于内部语言模型估计的自适应领域适应方法，通过最大化内部和外部语言模型 (ELM) 的分数的插值对数似然分数来实现 ILME-ADA，该方法在 RNN-T 和 LAS 模型框架下使用神经网络和 n-gram 语言模型作为 ELM，在两个特定领域 (目标) 测试集上表现显著优于浅层和基于 ILME 的 LM 融合方法，且在一般测试集上性能下降最小。

Nov, 2022

关于内部语言模型与序列判别式训练在神经传达器中的关系

内部语言模型减法与序列鉴别训练在语音识别中表现类似，通过实证研究证明二者性能相近，同时了解序列鉴别训练对常用零编码器内部语言模型估计产生极小影响，但对包括内部语言模型和空白抑制的编码器和预测 + 联合网络的后验概率重整具有联合效应。

Sep, 2023

基于流式递归神经网络转录器的神经语言模型融合改进

本文提出了一种扩展技术，使 RNN-T 能够利用外部神经网络语言模型（NNLM），从而增强了 Librispeech 上 13-18％的相对词错误率，同时保持了系统的流畅性，灵活性和轻量性。

Oct, 2020

将外部语言模型融入到序列到序列模型的分析

本研究研究了基于注意力机制的序列到序列模型中对于浅层融合仿照外部语言模型在多种语言模型、不同的解码单元和不同任务下的一系列行为。在 Google 语音搜索中，我们证明使用基于字单位的神经语言模型和浅层融合可以相对于具有竞争力的注意力机制序列到序列模型将单词错误率降低了 9.1%，避免了需要进行第二遍 rescoring 操作。

Dec, 2017

基于 Attention 编码器 - 解码器的明确上下文向量学习，用于内部语言模型评估的 ASR

本文提出了两种新方法，一种是基于训练文本学习的上下文向量替换方法，另一种是基于轻量级前馈网络的动态映射方法来准确估计内部语言模型 (ILM)，实验结果显示这两种方法比传统浅层融合和其他 ILM 估计方法表现更好。

Jan, 2022

使用 LM-aware MWER 训练来提高罕见词语识别

该研究介绍了在 discriminative training framework 中如何在 hybrid autoregressive transducer (HAT) 模型的学习中引入语言模型 (LMs) 来缓解训练和推理过程中使用 LMs 存在的差距。在浅层融合和重甄时，使用 LMs 显着提高了仅在训练期间极少见的单词的识别准确性。

Apr, 2022