语音识别自适应多语料语言模型训练
通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战,本文在第二遍 n-best rescoring 框架中使用神经 LM,实现了 6.2% 的相对 WER 降低,而延迟增加很小。
Jul, 2019
提出了一种新的自适应 ASR 模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%,且源领域性能无降低。
Sep, 2023
本研究调查了预先训练的语言模型在自动语音识别中的潜在用途,对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中,发现采样的近似方法支持使用,插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15%,我们引入了一种有限制的词汇解码方法,这将进一步提高 5%的改进。
Jun, 2023
本文提出了两种优化神经网络语言模型适应新数据的方法,包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中,这两种方法均取得了显著的改进。
Dec, 2014
通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略,结合生产语音引擎,利用语言模型融合技术,相对于使用原始语料训练出的语言模型,使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率,并在实时语音搜索流量中得到了有利的侧面对比评估结果。
Mar, 2022
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
提出了一种方法,基于手写语法直接估计 n-gram 数量和使用约束优化来适应新应用意图,同时不降低过去应用的性能,使用该方法在私人助手系统中对新应用意图进行了评估,发现即使对于没有此类应用程序的适应数据,适应可以将单词错误率提高 15%。
Dec, 2018
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022