腾讯 AI 实验室与上海交通大学面向 WMT22 翻译任务的低资源翻译系统
本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术,在英汉、波兰英语和德国上索布里亚语等四个方向中,我们获得了第一名的好成绩。
Oct, 2020
本篇研究介绍了 Facebook AI 对 WMT20 共享新闻翻译任务的参赛,主要关注于资源有限的环境中,用多种策略和技术如自监督模型预训练、多语言模型、数据增强、标签数据微调等,以对目标新闻领域适应来应对低资源问题。在测试集上,我们的最佳提交系统分别取得 21.5 和 13.7 的 BLEU 得分,适用于 Ta→En 和 En→Ta,以及 27.9 和 13.0 的分数适用于 Iu→En 和 En→Iu。
Nov, 2020
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022
本文介绍了 NICT 参与 WMT18 新闻翻译任务的结果,通过采用统计机器翻译和神经机器翻译系统以及使用大量反向翻译单语数据,结合使用 transformer architecture,对于爱沙尼亚语对英语、芬兰语对英语等语言方向实现了 BLEU 评分的领先。
Sep, 2018
这篇论文介绍了北京交通大学和微信 AI 针对英德翻译任务提交 WMT'22 的联合研究,使用 Transformer 及其多种变体,并利用预训练和微调范式来提高翻译效果,并采用 speaker-aware 等效果,最终通过 boosted self-COMET-based 模型的 ensemble 获得了最高的 COMET 分数。
Nov, 2022
本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统,着重研究了在低资源情况下使用多语种参数高效解决方案,利用强大的预训练模型来最大化翻译质量的工作。
Jun, 2023
本报告介绍了我们的 VolcTrans 系统,它是一个基于 Transformer 的多语言模型,使用从多个来源收集的数据进行训练,包括来自数据轨道的公共训练集,由 Meta AI 提供的 NLLB 数据,自收集的平行语料库和来自反向翻译的伪双语文本。在官方测试集上,我们的系统实现了 17.3 BLEU,21.9 spBLEU,和 41.9 chrF2 ++,平均所有语言对的推理速度为每秒 11.5 句,使用单个 Nvidia Tesla V100 GPU。
Oct, 2022
本研究介绍了 WeChat AI 在 WMT 2021 共享新闻翻译任务中的参与,并使用 Transformer 等多种方法来生成大量的合成数据,从而实现英语到中文、英语到日语、日语到英语和英语到德语的翻译,通过使用高级微调方法和基于 Self-BLEU 的模型加强,得到了 36.9、46.9、27.8 和 31.3 的 BLEU 分数,其中英语到中文、英语到日语和日语到英语的 BLEU 分数是所有提交中最高的,而英语到德语的 BLEU 分数是所有有限制的提交中最高的。
Aug, 2021
Aalto 大学使用基于 Transformer 模型的系统,通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性,尤其是对于爱沙尼亚语这种资源相对较少的语言,同时在 WMT18 新闻翻译中取得了好的结果。
Aug, 2018
本文介绍了一种在低资源语言环境下基于汉语的多语言机器翻译方法,并采用了单语词嵌入数据增强、双语课程学习、对比重排和一种新型的 Incomplete-Trust(In-trust)损失函数,实现了优于其他先进方法的性能。
Apr, 2022