开放领域自适应循环神经网络转录技术

Jun, 2020

开放领域自适应循环神经网络转录技术

Contextual RNN-T For Open Domain ASR

Mahaveer Jain, Gil Keren, Jay Mahadeokar, Geoffrey Zweig, Florian Metze...

TL;DR这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Abstract

end-to-end (E2E) systems for automatic speech recognition (ASR), such as RNN Transducer (RNN-T) and Listen-Attend-Spell (LAS) blend the individual components of a traditional hybrid ASR system - acoustic model, l

end-to-end automatic speech recognition rnn-t model named entity words metadata

发现论文，激发创造

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020

具备自定义能力的 RNN-T 模型超越高性能混合模型

本文中，我们介绍了最近开发的 RNN-T 模型，它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模，对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后，开发的 RNN-T 模型优于经过训练良好的混合模型，同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域，并比较了几种使用新领域纯文本数据的方法。研究发现，利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。

Jul, 2020

一种超越服务器传统模型质量和延迟的流式设备端到端模型

本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型，不仅在精度上，而且在延迟方面超越了传统模型，并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡，例如，在相同的延迟下，RNN-T+LAS 相对识别准确率提高了 8％，模型尺寸也缩小了 400 多倍。

Mar, 2020

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

语言模型偏置的序列到序列 ASR 系统上下文密度比率

本文提出了一种上下文密度比方法，用于训练上下文感知的 E2E 模型和适应命名实体的语言模型，应用于医生和患者对话的 E2E ASR 系统中，相对基线提高了 46.5% 的命名实体识别率，超过了上下文浅融合基线 22.1% 的相对识别率，并且没有降低整个测试集的识别准确度。

Jun, 2022

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023