传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较

COLINGFeb, 2024

传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较

Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition

David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos

TL;DR通过对少样本数据情况下传统 DNN-HMM 解码器和先进的 CTC/Attention 解码器的研究比较，我们发现传统范式在数据稀缺的情况下具有更好的识别率、较短的训练时间和更少的参数。

Abstract

Thanks to the rise of deep learning and the availability of large-scale audio-visual databases, recent advances have been achieved in Visual Speech Recognition (VSR). Similar to other speech processing tasks, these end-to-end VSR systems are usually based on encoder-decoder architectures

visual speech recognition encoder-decoder architectures deep neural networks hidden markov models data-scarcity scenarios

发现论文，激发创造

基于混合 CTC / 注意力架构的音视频语音识别

本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Sep, 2018

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模

本论文提出了四解码器联合建模 (4D) 的 CTC，关注机制，RNN-T 和掩码预测，旨在通过联合建模提高模型稳健性，在应用场景下轻松切换四个解码器，并通过一次解码方法进一步提高性能。

Dec, 2022

自注意力网络在语音识别中的连接主义时间分类

本文提出了 SAN-CTC，是一种基于自注意力机制和 CTC 的深度神经网络，用于实现端到端的语音识别，经过评估，相比于现有的 CTC 模型和编码器 - 解码器模型，具有更好的性能。

Jan, 2019

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

我们提出了一种联合建模方案，通过多任务学习和三种新的单通道波束搜索算法，我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能，并超过了使用单个解码器的模型。

Jun, 2024

基于 Attention 循环神经网络的端到端连续语音识别：首次结果

本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法，使用关注机制对输入与输出序列对齐以较高准确性地识别音素，且在 TIMIT 数据集上与传统的 HMM 方法相当。

Dec, 2014

GTC: 基于 CTC 的引导训练技术提高场景文本识别的准确率和效率

本文提出了一种基于引导训练的 CTC 模型，在保持快速推断速度的同时，从更强大的注意力引导中学习更好的对齐和特征表示，进而实现对正常和非正常场景文本的精确识别。此外，还引入了图卷积网络（GCN）来学习提取特征的局部相关性，并在标准基准测试中取得了新的场景文本识别的最新成果。

Feb, 2020

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021