语音翻译的预训练：CTC 应用最优输运

Jan, 2023

语音翻译的预训练：CTC 应用最优输运

Pre-training for Speech Translation: CTC Meets Optimal Transport

Phuong-Hang Le, Hongyu Gong, Changhan Wang, Juan Pino, Benjamin Lecouteux...

TL;DR本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法，其中使用连接主义时间分类损失和最优传输相结合的前置训练，该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能，并与最近的强多任务学习系统表现相当。

Abstract

The gap between speech and text modalities is a major challenge in speech-to-text translation (ST). Different methods have been proposed for reducing this gap, but most of them require architectural changes in ST training. In this work, we propose to mitigate this issue at the

speech-to-text translation pre-training connectionist temporal classification optimal transport multi-task learning

发现论文，激发创造

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

跨语种和语言模态之间的桥梁：同步双语 CTC 用于语音翻译和语音识别

本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架，利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标，我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应用的最新进展基础上，我们还开发了一个增强的变体 BiL-CTC+，在资源受限场景下创造出了新的最先进性能。有趣的是，我们的方法还显著提高了语音识别性能，揭示了跨语言学习对转录的影响，并展示了其广泛的适用性。源代码可以在此 https URL 获取。

Sep, 2023

连接预训练与微调：面向端到端语音翻译的差距缩小

本文提出使用 Tandem Connectionist Encoding Network 解决传统方法在 end-to-end 语音翻译中 fine-tuning 与 pre-training 之间巨大差距的问题，进而设计了两种简单且有效的方法保证语音编码器的输出和 MT 编码器的输入在语义表示和序列长度上一致。通过实验，我们的模型在一个大型基准数据集上优于基线 2.2 BLEU。

Sep, 2019

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022

跨模态多任务语音转文字翻译与参数共享

最近的研究在端到端语音到文本翻译（ST）中提出了多任务方法，通过辅助编码器将机器翻译（MT）数据映射到最终的跨模态表示中，采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架，通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列，从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验，我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类（CTC）、转录器和联合 CTC / 关注模型，而无需外部 MT 数据。此外，我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进，并且可以提高从预训练的文本模型进行迁移学习，从而产生 1.8 BLEU 的改进。

Sep, 2023

基于 CTC 的语音识别的分层多任务学习

使用分层多任务学习进行基于 CTC 的语音识别，添加辅助任务可提高识别结果表现，不同的实验变量，低资源下标准多任务学习表现优异，最佳结果为采用分层多任务学习与预训练相结合，可将错误率降低 3.4% 绝对值。

Jul, 2018

逐步推进零尾到尾语音翻译的极限

该论文介绍了一种名为 ZeroSwot 的零样本语音翻译方法，通过利用新颖的 CTC 压缩和最优传输技术，在没有配对的语音翻译数据的情况下，通过仅使用语音识别数据训练语音编码器，实现了语音到文本的直接翻译，展示了该方法在模态差异上的优越性和超越之前的零样本模型以及有监督模型的实验结果，达到了最先进的效果。

Feb, 2024

基于 CTC 的声学模型的多语言训练和跨语言适应

研究了多种适应和规则化技术，并使用深度神经网络，调查了自适应性训练的潜力，并研究了退火珂朵莉的效果，得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能，并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。

Nov, 2017

基于 CTC 的非自回归式无文字语音翻译

通过结合预训练、知识蒸馏和先进的非自回归训练技术，如 glancing training 和 non-monotonic latent alignments，基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量，并提升了 26.81 倍的解码速度。

Jun, 2024

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019