多语言到英语机器翻译工具、数据和预训练模型
描述了我们构建跨越 1000 个语言翻译的实用机器翻译系统的努力,包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。
May, 2022
本文探讨了多语种神经机器翻译的极限,通过实验培训了适用于 102 种语言的模型,并在 59 种语言上表现出了优异的翻译效果,表明大规模多语种神经机器翻译模型对低资源环境下的翻译质量有积极支持和刺激。
Feb, 2019
本研究建立了一种真正的 Many-to-Many 多语言翻译模型,可以直接在 100 种语言之间进行翻译,并通过密集扩展和语言特定的稀疏参数提高模型质量,优于 WMT 单一系统的表现。
Oct, 2020
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言 NMT 模型,实现了 103 种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用 NMT 模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言 NMT 优于传统的双语 NMT,Transformer 模型优于循环神经网络模型,零样本 NMT 优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
本文评估了一个大规模多语言神经机器翻译模型编码器在五个跨语言分类和序列标记任务中的跨语言效果,并展示了零 - shot 转移学习中在四个任务中的增益。
Sep, 2019