极端编码器输出帧率降低：改善大规模端到端模型的计算延迟

Feb, 2024

极端编码器输出帧率降低：改善大规模端到端模型的计算延迟

Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models

Rohit Prabhavalkar, Zhong Meng, Weiran Wang, Adam Stooke, Xingyu Cai...

TL;DR通过在编码器中应用多个帧压缩层，我们能够以较低的计算复杂度实现在每 2.56 秒的输入语音中生成一个编码器输出帧，而又不显著影响大规模语音搜索任务的词错误率，并相比于强大但计算代价高昂的基准模型，降低编码器和解码器延迟分别达到了 48% 和 92%。

Abstract

The accuracy of end-to-end (E2E) automatic speech recognition (ASR) models continues to improve as they are scaled to larger sizes, with some now reaching billions of parameters. Widespread deployment and adoption of these models, however, requires computationally efficient strategies for decoding. In the present work, we study one such strategy: applying mu

end-to-end automatic speech recognition e2e asr models frame reduction layers encoder word error rate

发现论文，激发创造

一种更好和更快的流式 ASR 端到端模型

本文研究了使用不同算法，如 FastEmit，Conformer 层和 Cascaded Encoders 等，提高端到端模型在流式语音识别领域的质量和延迟平衡。

Nov, 2020

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

双通道级联编码 ASR 模型中的 E2E 分割

我们探讨了将神经分割器与两次级联编码器 ASR 统一为单个模型。我们提出了一种设计，其中神经分割器与因果一次传递解码器集成在一起，以实时发出分段结束（EOS）信号。我们尝试了不同的方式来最终确定第二遍，发现一种新颖的虚拟帧注入策略可以同时实现高质量的第二遍结果和低延迟。在一个实际的长形字幕任务（YouTube）中，我们比基线 VAD 基于分割器使用相同的级联编码器获得了 2.4% 的相对 WER 和 140 毫秒的 EOS 延迟增益。

Nov, 2022

使用部分假设选择实现低延迟序列到序列的语音识别和翻译

本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题，提出了三种延迟降低技术，包括使用单向注意力机制，实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER（相对于离线转换）。同时还探讨了其在低延迟语音翻译上的应用。

May, 2020

一种语言不可知的多语言流式本地化 ASR 系统

本文提出了一种支持流式多语言的端到端自动语音识别的模型，通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer，以及使用了更高效的 Embedding 解码器，实现了低延迟和高质量的效果，可以在移动设备上实时运行。

Aug, 2022