4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模

Dec, 2022

4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模

4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decoders

Yui Sudo, Muhammad Shakeel, Brian Yan, Jiatong Shi, Shinji Watanabe

TL;DR本论文提出了四解码器联合建模 (4D) 的 CTC，关注机制，RNN-T 和掩码预测，旨在通过联合建模提高模型稳健性，在应用场景下轻松切换四个解码器，并通过一次解码方法进一步提高性能。

Abstract

The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and →

end-to-end automatic speech recognition connectionist temporal classification recurrent neural network transducer attention mechanism non-autoregressive mask-predict models

发现论文，激发创造

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

我们提出了一种联合建模方案，通过多任务学习和三种新的单通道波束搜索算法，我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能，并超过了使用单个解码器的模型。

Jun, 2024

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

改进的 Mask-CTC 用于非自回归端到端 ASR

为了实现自动语音识别的实时应用，并降低计算资源需求，本文结合 Conformer 结构和辅助目标预测方法，提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上，同时使推理速度不下降，结果超越标准 CTC 模型。

Oct, 2020

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

Mask CTC：基于 CTC 和 Mask 预测的非自回归端到端 ASR

本文提出了 Mask CTC 框架，它是一种新颖的非自回归端到端自动语音识别（ASR）框架，它通过加强 CTC 的输出来生成序列，并使用 Transformer 编码器 - 解码器进行训练。实验结果表明，相比标准的 CTC 模型，Mask CTC 模型在不同的语音识别任务中表现更优，并显著减少了推理时间。

May, 2020

提升 RNN-T 中声音和文本表征的融合

本文提出在深度学习中使用门结构和双线性池化，在自动语音识别领域取得了较大的词错误率的优化。

Jan, 2022

一种有效的端到端建模方法用于发音错误检测

本研究采用 E2E 模型中的混合 CTC-Attention 方法，并针对中文发音检测任务进行了输入扩充，使结果更加适合该任务。实验结果表明，与传统的混合 DNN-HMM 系统相比，该方法能够大大简化处理流程并显著提高性能。

May, 2020

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较

通过对少样本数据情况下传统 DNN-HMM 解码器和先进的 CTC/Attention 解码器的研究比较，我们发现传统范式在数据稀缺的情况下具有更好的识别率、较短的训练时间和更少的参数。

Feb, 2024