基于语言模型整合的传声器语音识别的实证研究

Mar, 2022

基于语言模型整合的传声器语音识别的实证研究

An Empirical Study of Language Model Integration for Transducer based Speech Recognition

Huahuan Zheng, Keyu An, Zhijian Ou, Chen Huang, Ke Ding...

TL;DR在端到端的 RNN-Transducer（RNN-T）中使用仅文本数据是具有挑战性的，本文研究了使用密度比和内部语言模型（ILM）估计的方法来将外部语言模型（ELM）集成到 RNN-T 中以实现语音识别，并提出了一种低阶密度比方法（LODR），在 LibriSpeech，Tedlium-2，WenetSpeech 和 AISHELL-1 数据集上的大量实验表明，LODR 始终优于 SF，在大多数测试中表现优于 DR 且一般性能接近 ILME。

Abstract

Utilizing text-only data with an external language model (ELM) in end-to-end rnn-transducer (RNN-T) for speech recognition is challenging.

rnn-transducer external language model density ratio method low-order density ratio method speech recognition

发现论文，激发创造

密度比方法在端到端自动语音识别中的语言模型融合

本文提出了一种基于密度比方法的外部语言模型集成到端到端语音识别模型的方法，应用于循环神经网络转录器（RNN-T）模型，通过模糊匹配在域 RNN-LM 和目标域 RNN-LM，使用贝叶斯定理为目标域定义 RNN - 后验，出色地解决了在有限数据和跨域情况下的语音识别问题。

Feb, 2020

领域适应端到端语音识别的内部语言模型估计

提出了一种内部语言模型估计（ILME）方法，用于在无需额外模型训练的情况下，更有效地集成外部 LM 并改善端到端自动语音识别中的域不匹配问题，包括最受欢迎的循环神经网络转录器（RNN-T）和基于注意力的编码器 - 解码器（AED）模型。

Nov, 2020

分解转导模型的有效内部语言模型训练和融合

基于因子化转导模型的新型内部语言模型 (ILM) 训练和解码策略，在 LibriSpeech 数据集上相对于标准解码方法获得了 17% 的相对改进，并与外部语言模型融合强化的强 RNN-T 基线相比，在一般集上获得了 5.5% 的相对改进和对于罕见单词的 8.9% WER 降低。该模型在无需依赖外部语言模型的情况下，达到了优秀的性能，非常适用于生产用例，并提出了一种新颖且内存高效的 ILM 融合意识的最小词误差率 (MWER) 训练方法来进一步提升性能。

Apr, 2024

基于流式递归神经网络转录器的神经语言模型融合改进

本文提出了一种扩展技术，使 RNN-T 能够利用外部神经网络语言模型（NNLM），从而增强了 Librispeech 上 13-18％的相对词错误率，同时保持了系统的流畅性，灵活性和轻量性。

Oct, 2020

RNN-Transducers 中的隐式语言模型自适应贴现

本文针对 RNN-T 在稀有词识别中的性能下降问题，提出了一种轻量级自适应 LM 折扣技术 AdaptLMD，通过在内部语言模型中动态选择性折扣，随机掩盖预测网络输出等方法，比较基准模型，相对于会话式的代码混合 Hindi - 英语 ASR 任务，在整体 WER 和稀有词 PER 方面分别获得了 4％和 14％的相对性能提升。

Feb, 2022

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

基于内部语言模型估计的适应性语言模型融合用于领域自适应

本文提出了一种基于内部语言模型估计的自适应领域适应方法，通过最大化内部和外部语言模型 (ELM) 的分数的插值对数似然分数来实现 ILME-ADA，该方法在 RNN-T 和 LAS 模型框架下使用神经网络和 n-gram 语言模型作为 ELM，在两个特定领域 (目标) 测试集上表现显著优于浅层和基于 ILME 的 LM 融合方法，且在一般测试集上性能下降最小。

Nov, 2022

关于内部语言模型与序列判别式训练在神经传达器中的关系

内部语言模型减法与序列鉴别训练在语音识别中表现类似，通过实证研究证明二者性能相近，同时了解序列鉴别训练对常用零编码器内部语言模型估计产生极小影响，但对包括内部语言模型和空白抑制的编码器和预测 + 联合网络的后验概率重整具有联合效应。

Sep, 2023

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

流式端到端多语言语音识别与联合语言识别

本文提出了一种改进的循环神经网络转录模型，通过集成一个帧级语言识别器预测器实现语言识别，以实现流式语音识别，通过流式实现统计汇聚，降低测试时成本，在语音搜索数据集上进行实验，平均命中率达到 96.2%。

Sep, 2022