融合语音和文本改进语音翻译

May, 2023

Improving speech translation by fusing speech and text

Wenbiao Yin, Zhicheng Liu, Chengqi Zhao, Tao Wang, Jian Tong...

TL;DR该研究提出了 FST 跨模态模型，支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译，技术包括多模态对齐等方法，实验结果表明该模型在多项测试中比传统方法有显著提升，尤其是在语音翻译领域。

Abstract

In speech translation, leveraging multimodal data to improve model performance and address limitations of individual modalities has shown significant effectiveness. In this paper, we harness the complementary str

speech translation multimodal data cross-modal model language translation machine translation

发现论文，激发创造

弥合语音到文本翻译的模态差距

提出了一种称作 STAST 的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

融合声音和文本编码的多模式双语预训练和语音翻译

提出了一个 Fused Acoustic and Text Masked Language Model (FAT-MLM), 它通过多种类型的语料库（包括用于语音识别和机器翻译的并行数据、纯语音和文本数据）联合学习了一个统一的音频和文本输入表示，从而用于跨模态的表示学习，为 Fused Acoustic and Text Speech Translation (FAT-ST) 提供端到端的模型，实验证明，通过从 FAT-MLM 的微调，我们提出的语音翻译模型可以将翻译质量显着提高高达 + 5.9 BLEU。

Feb, 2021

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023

跨模态渐进训练的端到端语音翻译

提出了一种基于 Cross Speech-Text（XSTNet）网络的用于语音翻译的端到端模型，采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略，并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果，平均 BLEU 值为 28.8，优于之前的最佳方法 3.2 BLEU。

Apr, 2021

跨模态多任务语音转文字翻译与参数共享

最近的研究在端到端语音到文本翻译（ST）中提出了多任务方法，通过辅助编码器将机器翻译（MT）数据映射到最终的跨模态表示中，采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架，通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列，从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验，我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类（CTC）、转录器和联合 CTC / 关注模型，而无需外部 MT 数据。此外，我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进，并且可以提高从预训练的文本模型进行迁移学习，从而产生 1.8 BLEU 的改进。

Sep, 2023

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

跨模态对比学习用于语音翻译

本文提出了一种名为 ConST 的跨模态对比学习方法，用于端到端的语音到文本翻译，并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明，相比之前的方法，该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。

May, 2022

通过跨模态多粒度对比学习提高语音翻译质量

该论文提出了一种 FCCL 方法，通过跨模态多粒度对比学习来实现显式知识转移，该方法在多语言和多粒度上显著优于 E2E-ST 基线，有助于提取包含丰富语义信息的语音表示。

Apr, 2023

语音到文本转换的共享语义空间学习

该论文提出了一种名为 Chimera 的方法，该方法通过投影音频和文本特征到一个共同的语义表示来统一文本翻译和语音翻译任务，从而提高了 MuST-C 和 Augmented Librispeech 的 ST 基准性能至新的最先进水平。

May, 2021