为下一个千种语言构建机器翻译系统
本文提出三种工具:MTData、NLCodec 和 RTG,设计一个能够从 500 种源语言翻译成英语的多语言神经机器翻译模型,支持语言种类很多,且模型容易下载和使用。
Apr, 2021
通过混合监督和自我监督目标的方法,实现了覆盖数百种语言的多语言机器翻译模型的构建,该方法可在零资源情况下生成高质量翻译,甚至超过低 - 中资源语言的监督翻译质量。
Jan, 2022
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言 NMT 模型,实现了 103 种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用 NMT 模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
本文研究了使用机器翻译(MT)为大规模语音控制设备的新语言引导自然语言理解(NLU)系统的使用情况,并探讨了不同的 MT 数据过滤方法以及语言特定的后处理方法在大规模 NLU 任务中的应用。结果表明,使用 MT 数据可以大大提高 NLU 的性能并减少人工工作量。
May, 2018
本文探讨了多语种神经机器翻译的极限,通过实验培训了适用于 102 种语言的模型,并在 59 种语言上表现出了优异的翻译效果,表明大规模多语种神经机器翻译模型对低资源环境下的翻译质量有积极支持和刺激。
Feb, 2019
本文旨在讨论如何通过两阶段训练策略实现多语言神经机器翻译系统,以解决低效率的问题,并在 WMT'21 多语言翻译任务中进行实验验证,证明我们的系统在大多数方向上优于基线模型,并且不需要架构修改或额外数据收集。
Jun, 2022
使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配,翻译 - 测试可以比之前假定的效果更好,从而对跨语言分类的多语言模型的支配提出了质疑,并促使更多关注基于机器翻译的基准线。
May, 2023
本研究建立了一种真正的 Many-to-Many 多语言翻译模型,可以直接在 100 种语言之间进行翻译,并通过密集扩展和语言特定的稀疏参数提高模型质量,优于 WMT 单一系统的表现。
Oct, 2020