多语言一对多端到端语音翻译

Oct, 2019

One-To-Many Multilingual End-to-end Speech Translation

Mattia Antonino Di Gangi, Matteo Negri, Marco Turchi

TL;DR本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性，结果表明，使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果，其中当对相似语言进行翻译时效果更为显著，特别是数据不足的情况下。

Abstract

Nowadays, training end-to-end neural models for spoken language translation (SLT) still has to confront with extreme data scarcity conditi

neural models spoken language translation transfer learning multilingual approach data scarcity

发现论文，激发创造

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

利用特定语言的编码器和解码器实现零 - shot 多语言口语翻译

我们提出的多语言语音翻译方法可以不依赖 MultiSLT 数据集，仅基于 ASR 和 MultiNMT 数据进行训练，通过将语音编码器与 MultiNMT 架构耦合可以在零 - shot 场景下实现类似双语翻译的效果，在我们实验的四种不同语言中，通过使用适配器模块可以在提议的架构上实现 + 6 BLEU 点的一致改进和 + 1 BLEU 点的端到端基线改进。

Nov, 2020

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

利用多语言自监督预训练模型进行序列到序列端到端口语理解

使用预训练模型和多语言设置，提出了一种统一的方法来进行 End-to-End 语音语言理解，包括词槽填充，通过在可用的大规模语音识别数据上进行预训练，该方法在多个数据集和跨语言任务上取得了显著的性能提升。

Oct, 2023

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019