高速准确流式端到端自动语音识别

Apr, 2020

高速准确流式端到端自动语音识别

Towards Fast and Accurate Streaming End-to-End ASR

Bo Li, Shuo-yiin Chang, Tara N. Sainath, Ruoming Pang, Yanzhang He...

TL;DR本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Abstract

End-to-end (E2E) models fold the acoustic, pronunciation and language models of a conventional speech recognition model into one neural network with a much smaller number of parameters than a conventional ASR system, thus making it suitable for on-device applications. For example, recu

end-to-end model speech recognition recurrent neural network transducer minimum word error rate training latency reduction

发现论文，激发创造

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

一种超越服务器传统模型质量和延迟的流式设备端到端模型

本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型，不仅在精度上，而且在延迟方面超越了传统模型，并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡，例如，在相同的延迟下，RNN-T+LAS 相对识别准确率提高了 8％，模型尺寸也缩小了 400 多倍。

Mar, 2020

一种更好和更快的流式 ASR 端到端模型

本文研究了使用不同算法，如 FastEmit，Conformer 层和 Cascaded Encoders 等，提高端到端模型在流式语音识别领域的质量和延迟平衡。

Nov, 2020

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

移动设备端到端语音识别流式处理

本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力，該模型可以以流式方式在實時下進行解碼，能夠應對各種需求，能利用特定用戶的上下文信息，並超越基於 CTC 的模型在各評價指標中的性能表現。

Nov, 2018

一种语言不可知的多语言流式本地化 ASR 系统

本文提出了一种支持流式多语言的端到端自动语音识别的模型，通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer，以及使用了更高效的 Embedding 解码器，实现了低延迟和高质量的效果，可以在移动设备上实时运行。

Aug, 2022

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

大规模语音识别常用端到端模型比较

本研究比较了非流式和流式模式下三种端到端自动语音识别模型，包括循环神经网络转导器（RNN-T）、循环神经网络基于注意力的编码器 - 解码器（RNN-AED）和 Transformer-AED。研究表明，Transformer-AED 在流式和非流式模式下的精度最佳，并且在流式模式下如果其编码器可以正确初始化，RNN-T 也是一个具有竞争力的模型。与高度优化的混合模型相比，流式 RNN-T 和 Transformer-AED 模型均可以获得更好的精度。

May, 2020

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022