流式序列到序列语音识别的最小延迟训练策略

Apr, 2020

流式序列到序列语音识别的最小延迟训练策略

Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASR

Hirofumi Inaguma, Yashesh Gaur, Liang Lu, Jinyu Li, Yifan Gong

TL;DR本文研究在线语音识别中的延迟问题，探究了利用硬对齐来进行多任务学习、预训练、合理删减对齐路径和直接减少预期延迟损失等多项方案，成功地实现了对延迟的缩减，并在某些情况下提高了语音识别准确性。

Abstract

Recently, a few novel streaming attention-based sequence-to-sequence (S2S) models have been proposed to perform online speech recognition with linear-time decoding complexity. However, in these models, the decisions to generate tokens are delayed compared to the actual acoustic boundar

streaming attention-based models online speech recognition linear-time decoding complexity hard alignments latency reduction

发现论文，激发创造

流式端到端语音识别序列转导器的最小延迟训练

本文提出了一种新的训练方法，通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡，实验结果表明，所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms，并在误识率降低了 0.7% 的同时，优于传统的对齐限制训练和快速发射方法。

Nov, 2022

使用部分假设选择实现低延迟序列到序列的语音识别和翻译

本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题，提出了三种延迟降低技术，包括使用单向注意力机制，实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER（相对于离线转换）。同时还探讨了其在低延迟语音翻译上的应用。

May, 2020

使用 Scout 网络的低延迟端对端流式语音识别

本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法，其中包含了一个侦察网络和一个识别网络，该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。

Mar, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

为实时语音搜索构建准确低延迟 ASR

本文致力于开发一种精确的 LSTM，注意力 (Attention)，和基于 CTC 的流式自动语音识别模型。这些模型针对印地英语 (Hinglish) 语音搜索应用，并分析了各种用于改进模型准确性的修改方法以及流媒体应用程序中的说话结束检测 (EOS) 的关键要求。该模型在 Flipkart 的语音搜索中获得了显着的性能提升，同时减少了搜索延迟。

May, 2023

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

低延迟流式 ASR 的延迟惩罚转录器

提出一种惩罚转导模型符号延迟的简单方法，来平衡无外部对齐的在线模型特征提取和识别精度之间的权衡，该方法对流式 Conformer 模型和单向 LSTM 模型都可以有效降低符号延迟并且保持可以接受的性能下降。

Oct, 2022

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-20％更低的字词误差率，同时在远场语音助手任务中优于强 RNN-T 基线。

Jun, 2023

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021