传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较
本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型,并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点,并且在噪声环境下表现出色, 是当前状态下最新的结果。
Sep, 2018
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
本论文提出了四解码器联合建模 (4D) 的 CTC,关注机制,RNN-T 和掩码预测,旨在通过联合建模提高模型稳健性,在应用场景下轻松切换四个解码器,并通过一次解码方法进一步提高性能。
Dec, 2022
本文提出了 SAN-CTC,是一种基于自注意力机制和 CTC 的深度神经网络,用于实现端到端的语音识别,经过评估,相比于现有的 CTC 模型和编码器 - 解码器模型,具有更好的性能。
Jan, 2019
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024
我们提出了一种联合建模方案,通过多任务学习和三种新的单通道波束搜索算法,我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能,并超过了使用单个解码器的模型。
Jun, 2024
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
本文提出了一种基于引导训练的 CTC 模型,在保持快速推断速度的同时,从更强大的注意力引导中学习更好的对齐和特征表示,进而实现对正常和非正常场景文本的精确识别。此外,还引入了图卷积网络(GCN)来学习提取特征的局部相关性,并在标准基准测试中取得了新的场景文本识别的最新成果。
Feb, 2020
本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。
Feb, 2021