腾讯 AI 实验室与上海交通大学面向 WMT22 翻译任务的低资源翻译系统

Oct, 2022

腾讯 AI 实验室与上海交通大学面向 WMT22 翻译任务的低资源翻译系统

Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation System for the WMT22 Translation Task

Zhiwei He, Xing Wang, Zhaopeng Tu, Shuming Shi, Rui Wang

TL;DR本文介绍腾讯 AI 实验室和上海交通大学共同参加的一场机器翻译比赛，在使用 M2M100 进行翻译的过程中，采用了交叉模型词嵌入对齐、逐步自适应策略、数据增强和微调等技术手段取得了优异成绩。

Abstract

This paper describes Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) low-resource translation systems for the WMT22 shared task. We participate in the general translation task on English$\Leftrightarrow$Livonian. Our system is based on →

machine translation low-resource translation m2m100 data augmentation fine-tuning

发现论文，激发创造

上海交通大学 - 国立信息学研究所的 WMT20 新闻翻译任务所使用的监督式和无监督式神经机器翻译系统

本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术，在英汉、波兰英语和德国上索布里亚语等四个方向中，我们获得了第一名的好成绩。

Oct, 2020

Facebook AI 的 WMT20 新闻翻译任务提交

本篇研究介绍了 Facebook AI 对 WMT20 共享新闻翻译任务的参赛，主要关注于资源有限的环境中，用多种策略和技术如自监督模型预训练、多语言模型、数据增强、标签数据微调等，以对目标新闻领域适应来应对低资源问题。在测试集上，我们的最佳提交系统分别取得 21.5 和 13.7 的 BLEU 得分，适用于 Ta→En 和 En→Ta，以及 27.9 和 13.0 的分数适用于 Iu→En 和 En→Iu。

Nov, 2020

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022

NICT 的神经和统计机器翻译系统对 WMT18 新闻翻译任务的应用

本文介绍了 NICT 参与 WMT18 新闻翻译任务的结果，通过采用统计机器翻译和神经机器翻译系统以及使用大量反向翻译单语数据，结合使用 transformer architecture，对于爱沙尼亚语对英语、芬兰语对英语等语言方向实现了 BLEU 评分的领先。

Sep, 2018

BJTU-WeChat 的 WMT22 聊天翻译任务系统

这篇论文介绍了北京交通大学和微信 AI 针对英德翻译任务提交 WMT'22 的联合研究，使用 Transformer 及其多种变体，并利用预训练和微调范式来提高翻译效果，并采用 speaker-aware 等效果，最终通过 boosted self-COMET-based 模型的 ensemble 获得了最高的 COMET 分数。

Nov, 2022

NAVER LABS Europe 的多语种语音翻译系统对 IWSLT 2023 低资源轨道的支持

本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统，着重研究了在低资源情况下使用多语种参数高效解决方案，利用强大的预训练模型来最大化翻译质量的工作。

Jun, 2023

WMT22 多语言机器翻译任务的 VolcTrans 系统

本报告介绍了我们的 VolcTrans 系统，它是一个基于 Transformer 的多语言模型，使用从多个来源收集的数据进行训练，包括来自数据轨道的公共训练集，由 Meta AI 提供的 NLLB 数据，自收集的平行语料库和来自反向翻译的伪双语文本。在官方测试集上，我们的系统实现了 17.3 BLEU，21.9 spBLEU，和 41.9 chrF2 ++，平均所有语言对的推理速度为每秒 11.5 句，使用单个 Nvidia Tesla V100 GPU。

Oct, 2022

WMT21 的微信神经机器翻译系统

本研究介绍了 WeChat AI 在 WMT 2021 共享新闻翻译任务中的参与，并使用 Transformer 等多种方法来生成大量的合成数据，从而实现英语到中文、英语到日语、日语到英语和英语到德语的翻译，通过使用高级微调方法和基于 Self-BLEU 的模型加强，得到了 36.9、46.9、27.8 和 31.3 的 BLEU 分数，其中英语到中文、英语到日语和日语到英语的 BLEU 分数是所有提交中最高的，而英语到德语的 BLEU 分数是所有有限制的提交中最高的。

Aug, 2021

面向多语言神经翻译的同源词意感知形态分割

Aalto 大学使用基于 Transformer 模型的系统，通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性，尤其是对于爱沙尼亚语这种资源相对较少的语言，同时在 WMT18 新闻翻译中取得了好的结果。

Aug, 2018

面向低资源语言的更优中心化神经机器翻译

本文介绍了一种在低资源语言环境下基于汉语的多语言机器翻译方法，并采用了单语词嵌入数据增强、双语课程学习、对比重排和一种新型的 Incomplete-Trust（In-trust）损失函数，实现了优于其他先进方法的性能。

Apr, 2022