使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

Mar, 2022

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition With Emformer

Jingyu Sun, Guiping Zhong, Dinghao Zhou, Baoxiang Li

TL;DR本文提出一种帧级模型，采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性，通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充，以达到更好的性能。实验表明，该模型在 LibriSpeech 数据集上具有较高的性能。

Abstract

An inferior performance of the streaming automatic speech recognition models versus non-streaming model is frequently seen due to the absence of future context. In order to improve the performance of the streaming model and reduce the computational complexity, a →

streaming automatic speech recognition frame-level model augment memory transformer block dynamic latency training method long-range history context

发现论文，激发创造

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

使用 Scout 网络的低延迟端对端流式语音识别

本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法，其中包含了一个侦察网络和一个识别网络，该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。

Mar, 2020

Transformer 在行动：Transformer 基于的大规模语音识别应用中的声学模型比较研究

本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异，介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明，Emformer 在低延迟语音助手任务中有 24％至 26％的相对单词错误率降低，并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。

Oct, 2020

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

使用部分假设选择实现低延迟序列到序列的语音识别和翻译

本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题，提出了三种延迟降低技术，包括使用单向注意力机制，实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER（相对于离线转换）。同时还探讨了其在低延迟语音翻译上的应用。

May, 2020

Conv-Transformer 转换器：低延迟、低帧率、可流式传输的端到端语音识别

本研究设计了 Conv-Transformer Transducer 架构，在 LibriSpeech 数据集上实现了较强的流式语音识别性能，该架构适用于流式 ASR，且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统，拥有更小的前向窗口、更少的参数和更低的帧率。

Aug, 2020

隐式记忆变换器：面向计算效率的同声传译模型

本文提出了一种采用隐式内存推理机制的新型左上下文方法的隐式存储变形器，以提高流式翻译的速度和性能，并在 MuST-C 数据集上进行实验以证明该方法优于现有方法。

Jul, 2023

流式端到端语音识别序列转导器的最小延迟训练

本文提出了一种新的训练方法，通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡，实验结果表明，所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms，并在误识率降低了 0.7% 的同时，优于传统的对齐限制训练和快速发射方法。

Nov, 2022

动态隐变量感知器实现高效语音翻译

该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术，这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配，并且可以在推理过程中灵活部署，适应多种计算预算，而不会导致显著降低翻译质量。

Oct, 2022

基于自注意力和增强记忆的流式 Transformer 声学模型

本文提出了一种新颖的增强记忆自注意力机制，用于 Transformer 语音识别中的流式应用，相对于现有的可流式 Transformer 方法，减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。

May, 2020