基于 Transformer 的流式端到端自动语音识别中的平移块编码器

Mar, 2022

基于 Transformer 的流式端到端自动语音识别中的平移块编码器

Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR

Fangyuan Wang, Bo Xu

TL;DR提出一种基于移位块机制的 SChunk-Transformer 和 SChunk-Conformer 模型，可以较好地解决全局上下文建模和训练效率问题，在 AISHELL-1 测试集上分别取得 6.43% 和 5.77% 的 CER 准确率，与传统的块式模型相比性能更佳。

Abstract

Currently, there are mainly three kinds of transformer encoder based streaming end to end (E2E) automatic speech recognition (ASR) approac

transformer encoder streaming end to end automatic speech recognition chunk-wise methods conformer

发现论文，激发创造

流式端到端自动语音识别的顺序采样块 Conformer

本文研究了一种 Sequentially Sampled Chunk Conformer (SSC-Conformer) 模型，该模型通过使用 SSC-MHSA、分块卷积以及线性复杂度等技术，实现了端到端自动语音识别的最新水平，达到了 5.33% 的 CER（无需 LM rescoring），同时可用于高效训练和推理。

Nov, 2022

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

语音识别统一流式和非流式两遍端到端模型

本文提出了一种新颖的两步方法，用于将流式和非流式端到端（E2E）语音识别统一到单个模型中，该模型采用混合 CTC /attention 架构，在编码器的 conformer 层进行修改，并且在推理时，CTC 解码器以流式方式生成 n 个最佳假设，然后通过注意力解码器进行重评分以得到最终结果，并且在 AISHELL-1 测试集上，基于提出的方法的统一模型相对于标准的非流式 transformer，实现了 5.60％的相对字符错误率（CER）降低，在流式 ASR 系统中实现了 640ms 的延迟。

Dec, 2020

块同步束搜索流式 Transformer 自动语音识别

本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法，并在多项实验中的表现均优于传统的在线方法，特别是在使用知识蒸馏技术时。

Jun, 2020

基于 Transformer 的 CTC / 注意力机制在线端到端语音识别架构

本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构，该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器，通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中，实现了在线语音识别，与离线基线相比，具有最低为 0.19％的 CER 衰减和显着的性能提升。

Jan, 2020

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

基于位移切块的时空表示学习变压器

本研究针对视频分类问题，提出了一种基于 Transformer 与自注意力机制的空时表示学习方法，其中采用 shifted chunk Transformer 对视频帧间数据进行建模，通过局部到全局的多层次学习，构建了视频片段编码器，加强了长期时间依赖的建模能力，并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。

Aug, 2021

一种更好和更快的流式 ASR 端到端模型

本文研究了使用不同算法，如 FastEmit，Conformer 层和 Cascaded Encoders 等，提高端到端模型在流式语音识别领域的质量和延迟平衡。

Nov, 2020

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用，使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

本文提出一种帧级模型，采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性，通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充，以达到更好的性能。实验表明，该模型在 LibriSpeech 数据集上具有较高的性能。

Mar, 2022