语音翻译的预训练:CTC 应用最优输运
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架,利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标,我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应用的最新进展基础上,我们还开发了一个增强的变体 BiL-CTC+,在资源受限场景下创造出了新的最先进性能。有趣的是,我们的方法还显著提高了语音识别性能,揭示了跨语言学习对转录的影响,并展示了其广泛的适用性。源代码可以在此 https URL 获取。
Sep, 2023
本文提出使用 Tandem Connectionist Encoding Network 解决传统方法在 end-to-end 语音翻译中 fine-tuning 与 pre-training 之间巨大差距的问题,进而设计了两种简单且有效的方法保证语音编码器的输出和 MT 编码器的输入在语义表示和序列长度上一致。通过实验,我们的模型在一个大型基准数据集上优于基线 2.2 BLEU。
Sep, 2019
这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用,并提出了 CTC/attention 的联合模型,改进了传统 attention 模型的训练表现和效果。
Oct, 2022
最近的研究在端到端语音到文本翻译(ST)中提出了多任务方法,通过辅助编码器将机器翻译(MT)数据映射到最终的跨模态表示中,采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架,通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列,从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验,我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类(CTC)、转录器和联合 CTC / 关注模型,而无需外部 MT 数据。此外,我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进,并且可以提高从预训练的文本模型进行迁移学习,从而产生 1.8 BLEU 的改进。
Sep, 2023
使用分层多任务学习进行基于 CTC 的语音识别,添加辅助任务可提高识别结果表现,不同的实验变量,低资源下标准多任务学习表现优异,最佳结果为采用分层多任务学习与预训练相结合,可将错误率降低 3.4% 绝对值。
Jul, 2018
该论文介绍了一种名为 ZeroSwot 的零样本语音翻译方法,通过利用新颖的 CTC 压缩和最优传输技术,在没有配对的语音翻译数据的情况下,通过仅使用语音识别数据训练语音编码器,实现了语音到文本的直接翻译,展示了该方法在模态差异上的优越性和超越之前的零样本模型以及有监督模型的实验结果,达到了最先进的效果。
Feb, 2024
研究了多种适应和规则化技术,并使用深度神经网络,调查了自适应性训练的潜力, 并研究了退火珂朵莉的效果,得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能,并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。
Nov, 2017
通过结合预训练、知识蒸馏和先进的非自回归训练技术,如 glancing training 和 non-monotonic latent alignments,基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了 26.81 倍的解码速度。
Jun, 2024
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019