融合语音和文本改进语音翻译
提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。
Oct, 2020
提出了一个 Fused Acoustic and Text Masked Language Model (FAT-MLM), 它通过多种类型的语料库(包括用于语音识别和机器翻译的并行数据、纯语音和文本数据)联合学习了一个统一的音频和文本输入表示,从而用于跨模态的表示学习,为 Fused Acoustic and Text Speech Translation (FAT-ST) 提供端到端的模型,实验证明,通过从 FAT-MLM 的微调,我们提出的语音翻译模型可以将翻译质量显着提高高达 + 5.9 BLEU。
Feb, 2021
本文研究对于 ST 和 MT 之间的通道差,提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值,使用采样和不同训练权重来处理难以处理的情况,实现了在 MuST-C 数据集的八个方向上取得了显著效果。
May, 2023
提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果,平均 BLEU 值为 28.8,优于之前的最佳方法 3.2 BLEU。
Apr, 2021
最近的研究在端到端语音到文本翻译(ST)中提出了多任务方法,通过辅助编码器将机器翻译(MT)数据映射到最终的跨模态表示中,采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架,通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列,从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验,我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类(CTC)、转录器和联合 CTC / 关注模型,而无需外部 MT 数据。此外,我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进,并且可以提高从预训练的文本模型进行迁移学习,从而产生 1.8 BLEU 的改进。
Sep, 2023
本文提出了一种基于元学习算法采用模态不可知的多任务模型,将源任务 ASR + MT 的知识转移到目标任务 ST 中,以应对 ST 任务短缺数据的问题,该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。
Nov, 2019
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。
Nov, 2023
本文提出了一种名为 ConST 的跨模态对比学习方法,用于端到端的语音到文本翻译,并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明,相比之前的方法,该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。
May, 2022
该论文提出了一种 FCCL 方法,通过跨模态多粒度对比学习来实现显式知识转移,该方法在多语言和多粒度上显著优于 E2E-ST 基线,有助于提取包含丰富语义信息的语音表示。
Apr, 2023
该论文提出了一种名为 Chimera 的方法,该方法通过投影音频和文本特征到一个共同的语义表示来统一文本翻译和语音翻译任务,从而提高了 MuST-C 和 Augmented Librispeech 的 ST 基准性能至新的最先进水平。
May, 2021