开放领域自适应循环神经网络转录技术
本研究提出了一种基于上下文偏差和似然比的方法,用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标,在多个跨领域数据集上相对提高了 10%的识别正确率,同时也优化了 8-Best Oracle WER。
Jan, 2022
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
本文中,我们介绍了最近开发的 RNN-T 模型,它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模,对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后,开发的 RNN-T 模型优于经过训练良好的混合模型,同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域,并比较了几种使用新领域纯文本数据的方法。研究发现,利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。
Jul, 2020
本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型,不仅在精度上,而且在延迟方面超越了传统模型,并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡,例如,在相同的延迟下,RNN-T+LAS 相对识别准确率提高了 8%,模型尺寸也缩小了 400 多倍。
Mar, 2020
本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程,从而将端到端流式模型的性能提高至与传统语音识别系统相当,同时也满足计算和响应延迟等约束条件。
Aug, 2019
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
本文提出了一种上下文密度比方法,用于训练上下文感知的 E2E 模型和适应命名实体的语言模型,应用于医生和患者对话的 E2E ASR 系统中,相对基线提高了 46.5% 的命名实体识别率,超过了上下文浅融合基线 22.1% 的相对识别率,并且没有降低整个测试集的识别准确度。
Jun, 2022
比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统,其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录,第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能,相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性,误差增加了 2.42% 绝对值。
Nov, 2023