4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模
我们提出了一种联合建模方案,通过多任务学习和三种新的单通道波束搜索算法,我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能,并超过了使用单个解码器的模型。
Jun, 2024
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016
为了实现自动语音识别的实时应用,并降低计算资源需求,本文结合 Conformer 结构和辅助目标预测方法,提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上,同时使推理速度不下降,结果超越标准 CTC 模型。
Oct, 2020
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
本文提出了 Mask CTC 框架,它是一种新颖的非自回归端到端自动语音识别(ASR)框架,它通过加强 CTC 的输出来生成序列,并使用 Transformer 编码器 - 解码器进行训练。实验结果表明,相比标准的 CTC 模型,Mask CTC 模型在不同的语音识别任务中表现更优,并显著减少了推理时间。
May, 2020
本研究采用 E2E 模型中的混合 CTC-Attention 方法,并针对中文发音检测任务进行了输入扩充,使结果更加适合该任务。实验结果表明,与传统的混合 DNN-HMM 系统相比,该方法能够大大简化处理流程并显著提高性能。
May, 2020
这篇论文提出对 RNN-T 模型进行修改,以利用附带的元数据文本,从而改善对于命名实体词汇的识别,并在社交媒体视频数据集上取得了 16% 左右的提升。
Jun, 2020
通过对少样本数据情况下传统 DNN-HMM 解码器和先进的 CTC/Attention 解码器的研究比较,我们发现传统范式在数据稀缺的情况下具有更好的识别率、较短的训练时间和更少的参数。
Feb, 2024