通过跨模态多粒度对比学习提高语音翻译质量

Apr, 2023

通过跨模态多粒度对比学习提高语音翻译质量

Improving Speech Translation by Cross-Modal Multi-Grained Contrastive Learning

Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang...

TL;DR该论文提出了一种 FCCL 方法，通过跨模态多粒度对比学习来实现显式知识转移，该方法在多语言和多粒度上显著优于 E2E-ST 基线，有助于提取包含丰富语义信息的语音表示。

Abstract

The end-to-end speech translation (E2E-ST) model has gradually become a mainstream paradigm due to its low latency and less error propagation. However, it is non-trivial to train such a model well due to the task complexity and →

end-to-end speech translation fccl approach multi-grained contrastive learning implicit knowledge transfer data scarcity

发现论文，激发创造

跨模态对比学习用于语音翻译

本文提出了一种名为 ConST 的跨模态对比学习方法，用于端到端的语音到文本翻译，并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明，相比之前的方法，该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。

May, 2022

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

调整大型语言模型用于端到端语音翻译

本研究提出了 LST，一个大型多模型，旨在优化端到端语音翻译任务的性能并创造新的技术水平。在 MuST-C 语音翻译基准测试中，LST-13B 取得了 30.39/41.55/35.33 的 BLEU 分数，超过了之前的模型并树立了新的最新技术水平。此外，还进行了单模型选择和训练策略对结果的影响的深入分析，为未来的研究奠定了基础。

Oct, 2023

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

选择性数据增强对于强健的语音翻译的影响

该论文介绍了使用端到端系统和噪声机器翻译数据增强策略来改进语音翻译，提高 BLEU 分数，该方法应用于英语 - 印地语语音翻译。

Mar, 2023

跨模态多任务语音转文字翻译与参数共享

最近的研究在端到端语音到文本翻译（ST）中提出了多任务方法，通过辅助编码器将机器翻译（MT）数据映射到最终的跨模态表示中，采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架，通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列，从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验，我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类（CTC）、转录器和联合 CTC / 关注模型，而无需外部 MT 数据。此外，我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进，并且可以提高从预训练的文本模型进行迁移学习，从而产生 1.8 BLEU 的改进。

Sep, 2023

基于跨模态选择性自训练的零样本端到端口语理解

本研究提出了一种跨模态选择性自训练的方法，使得在没有语音 - 语义配对数据的情况下能够有效学习端到端的口语理解模型，并且证明了其在两个零样本端到端口语理解训练集上都能显著提高性能、缩短训练时间。

May, 2023

通过利用目标语言上下文提升端到端会话语音翻译

在这篇研究中，我们介绍了如何在端到端语音翻译中引入目标语言上下文，以增强连贯性并克服扩展音频片段的内存限制。此外，我们还提出了上下文丢弃以确保对上下文缺失的鲁棒性，并通过添加说话者信息进一步提高性能。我们的上下文化端到端语音翻译方法优于孤立的基于句子的端到端语音翻译方法。最后，我们证明在对话性语音中，上下文信息主要有助于捕捉上下文风格，并解决指代和命名实体问题。

Sep, 2023

跨语言对齐的多层对比学习

本文提出了一种多级对比学习（ML-CTL）框架，使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习，以进一步提高预训练模型的跨语言能力。其中，采用了交叉零噪声对比估计（CZ-NCE）损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型（mBERT）的跨语言迁移能力，并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。

Feb, 2022