本文提出了一种简单且有效的多语言端到端语音翻译框架,并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。
Oct, 2019
利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类,口语问答的性能,并探索模型的贝叶斯迁移学习和持续学习惯性。
May, 2023
我们提出的多语言语音翻译方法可以不依赖 MultiSLT 数据集,仅基于 ASR 和 MultiNMT 数据进行训练,通过将语音编码器与 MultiNMT 架构耦合可以在零 - shot 场景下实现类似双语翻译的效果,在我们实验的四种不同语言中,通过使用适配器模块可以在提议的架构上实现 + 6 BLEU 点的一致改进和 + 1 BLEU 点的端到端基线改进。
Nov, 2020
本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题,展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型,并讨论了避免模型对合成的语音过度拟合的方法。
Nov, 2018
本文提出了一种基于元学习算法采用模态不可知的多任务模型,将源任务 ASR + MT 的知识转移到目标任务 ST 中,以应对 ST 任务短缺数据的问题,该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。
Nov, 2019
本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型,取得了比单语言模型和传统模型都更低的语音识别误差率。
Sep, 2019
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
使用预训练模型和多语言设置,提出了一种统一的方法来进行 End-to-End 语音语言理解,包括词槽填充,通过在可用的大规模语音识别数据上进行预训练,该方法在多个数据集和跨语言任务上取得了显著的性能提升。
Oct, 2023
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。
Nov, 2023
文章提出了一种使用语音合成生成大规模合成数据集的方法,以克服要求领域内语音数据记录的问题,并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。