领域适应端到端语音识别的内部语言模型估计
本文提出了一种基于内部语言模型估计的自适应领域适应方法,通过最大化内部和外部语言模型 (ELM) 的分数的插值对数似然分数来实现 ILME-ADA,该方法在 RNN-T 和 LAS 模型框架下使用神经网络和 n-gram 语言模型作为 ELM,在两个特定领域 (目标) 测试集上表现显著优于浅层和基于 ILME 的 LM 融合方法,且在一般测试集上性能下降最小。
Nov, 2022
本研究基于 ILME 的 LM 融合方法,在跨领域的混合语音识别任务中,展示了比传统浅度融合更显著的识别效果。也针对跨领域的混合语音识别任务,尝试融合两个单语言数据集,构建 E2E 语音识别模型。通过实验证明了提出的 ILME-based LM 融合方法的有效性,同时使用了 SEAME 和中国大陆 CS 数据集进行了评估。
Jul, 2022
提出了一种新型的用于 CTC-Based ASR 模型的内部语言模型估计技术,该技术在多个领域的数据集上得到了验证,能通过遮盖音频时间步骤迭代地估计内部 LM 的伪对数似然,从而消除源域偏见,并且在无目标域数据的零 - shot 域自适应中也能优于 Shallow Fusion 来提高 WER。
May, 2023
最近在深度学习和自动语音识别(ASR)方面的进展使得端到端(E2E)ASR 系统成为可能,并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中,以更好地解决领域不匹配问题,并取得了显著的词错误率降低,尤其在增强命名实体识别方面效果明显。
Oct, 2023
本文提出了两种新方法,一种是基于训练文本学习的上下文向量替换方法,另一种是基于轻量级前馈网络的动态映射方法来准确估计内部语言模型 (ILM),实验结果显示这两种方法比传统浅层融合和其他 ILM 估计方法表现更好。
Jan, 2022
在端到端的 RNN-Transducer(RNN-T)中使用仅文本数据是具有挑战性的,本文研究了使用密度比和内部语言模型(ILM)估计的方法来将外部语言模型(ELM)集成到 RNN-T 中以实现语音识别,并提出了一种低阶密度比方法(LODR),在 LibriSpeech,Tedlium-2,WenetSpeech 和 AISHELL-1 数据集上的大量实验表明,LODR 始终优于 SF,在大多数测试中表现优于 DR 且一般性能接近 ILME。
Mar, 2022
本研究提出了一种新型的解码算法,可以结合外部语言模型,构建单词级别的 lattice,用于提高语音识别的表现,并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。
Jan, 2022
提出了一种使用大规模非配对文本来改善说话者对罕见单词的识别能力的训练方法 JEIT,它结合了端到端模型和内部语言模型训练,其中内部语言模型吸收非配对文本,接受 E2E 计算损失信息,从而提高 E2E 模型的性能。在 JEIT 过程中,MHAT 表现比 HAT 更佳,在 ILM 适应时更加稳定,此外,我们还提出了结合 JEIT 和 JOIST 的 CJJT 方法,它能更有效地实现语言模型的融合。
Feb, 2023
利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用 LLM 提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端 ASR 模型相媲美的性能。
Dec, 2023
基于因子化转导模型的新型内部语言模型 (ILM) 训练和解码策略,在 LibriSpeech 数据集上相对于标准解码方法获得了 17% 的相对改进,并与外部语言模型融合强化的强 RNN-T 基线相比,在一般集上获得了 5.5% 的相对改进和对于罕见单词的 8.9% WER 降低。该模型在无需依赖外部语言模型的情况下,达到了优秀的性能,非常适用于生产用例,并提出了一种新颖且内存高效的 ILM 融合意识的最小词误差率 (MWER) 训练方法来进一步提升性能。
Apr, 2024