块同步束搜索流式 Transformer 自动语音识别

Jun, 2020

块同步束搜索流式 Transformer 自动语音识别

Streaming Transformer ASR with Blockwise Synchronous Beam Search

Emiru Tsunoo, Yosuke Kashiwagi, Shinji Watanabe

TL;DR本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法，并在多项实验中的表现均优于传统的在线方法，特别是在使用知识蒸馏技术时。

Abstract

The transformer self-attention network has shown promising performance as an alternative to recurrent neural networks in end-to-end (E2E) automatic speech recognition (ASR) systems. However, →

transformer self-attention network automatic speech recognition streaming beam search algorithm

发现论文，激发创造

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

面向口语理解和同时语音翻译的分块流式 Transformer

本研究提出基于块状，流式 Transformer 的方法，通过流式处理和块状并行检索，在同时进行自然语言理解和语音翻译等多个语音处理任务中，实现实时处理并取得与离线模型相当甚至更高的性能表现，并通过引入自动语音识别中间层损失约束和跨语言编码方法等方式进一步提高分类性能和模型表现。

Apr, 2022

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

带有上下文块处理的 Transformer 语音识别

本文介绍了一种基于块处理的 Transform self-attention 网络用于语音识别的新方法，通过引入上下文 - aware 继承机制和一种新的掩码技术，有效地编码本地和全局信息，实验结果表明，该方法显著优于朴素块处理方法。

Oct, 2019

增量式分块波束搜索实现同时语音翻译与可控质量 - 延迟折衷

通过修改增量性的分块束搜索策略，本文提出了一种用于控制质量 - 延迟权衡的方法，并应用于在线和离线翻译模型，实验结果表明在 MuST-C 数据集上 BLEU 指标提升 0.6-3.6，延迟降低 0.8-1.4 秒。

Sep, 2023

基于 Transformer 的 CTC / 注意力机制在线端到端语音识别架构

本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构，该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器，通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中，实现了在线语音识别，与离线基线相比，具有最低为 0.19％的 CER 衰减和显着的性能提升。

Jan, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

流式并行传感器束搜索算法及快慢级联编码器

该研究提出了在流式自动语音识别中应用串联有因果和非因果编码器的方法，并使用两个有不同输入上下文大小和以不同的音频间隔产生输出的流式非因果编码器进行改进；同时提出了一种新的并行时间同步波束搜索算法。研究结果表明，在公共数据集 Librispeech 和内部数据集上，该算法在稍微增加音节延迟的情况下，实现 WER 降低 20％左右，并探索了分布式处理和共享参数降低内存占用的技术，以实现低计算成本和低内存占用的边缘设备上的低延迟处理。

Mar, 2022

基于 Transformer 的流式端到端自动语音识别中的平移块编码器

提出一种基于移位块机制的 SChunk-Transformer 和 SChunk-Conformer 模型，可以较好地解决全局上下文建模和训练效率问题，在 AISHELL-1 测试集上分别取得 6.43% 和 5.77% 的 CER 准确率，与传统的块式模型相比性能更佳。

Mar, 2022

基于音节的 Transformer 序列到序列中文语音识别

通过使用基于自注意力机制的 Transformer 模型，比较了基于音节和音素的汉语语音识别模型，结果表明音节模型在 HKUST 语料库上表现优异。

Apr, 2018