CTC 对齐提高自回归翻译
本文介绍了一种基于 CTC 的非自回归语音翻译模型,采用预测感知编码方法和跨层注意力方法解决了翻译任务中的条件独立生成和单调对齐等问题,加速比为 5.67 倍,BLEU 分数为 29.5,在 MuST-C ST 基准测试上优于自回归模型和之前的最佳结果。
May, 2023
该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息,提高了其性能表现,通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。
Oct, 2022
通过结合预训练、知识蒸馏和先进的非自回归训练技术,如 glancing training 和 non-monotonic latent alignments,基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了 26.81 倍的解码速度。
Jun, 2024
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016
该研究提出了一种新的语音识别模型,使用动态增强和电话对齐网络来优化编码器和解码器,在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果,结果表明 F1 可以达到 60%。
Oct, 2022
研究了多种适应和规则化技术,并使用深度神经网络,调查了自适应性训练的潜力, 并研究了退火珂朵莉的效果,得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能,并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。
Nov, 2017
本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架,利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标,我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应用的最新进展基础上,我们还开发了一个增强的变体 BiL-CTC+,在资源受限场景下创造出了新的最先进性能。有趣的是,我们的方法还显著提高了语音识别性能,揭示了跨语言学习对转录的影响,并展示了其广泛的适用性。源代码可以在此 https URL 获取。
Sep, 2023
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本文提出了 SAN-CTC,是一种基于自注意力机制和 CTC 的深度神经网络,用于实现端到端的语音识别,经过评估,相比于现有的 CTC 模型和编码器 - 解码器模型,具有更好的性能。
Jan, 2019
本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 7%,同时发现在联合 CTC-Attention ASR 模型中,解码器对语言信息比声学信息更敏感。
Oct, 2022