Vega-MT: WMT22 京东探索学院翻译系统

Sep, 2022

Vega-MT: WMT22 京东探索学院翻译系统

Vega-MT: The JD Explore Academy Translation System for WMT22

Changtong Zan, Keqin Peng, Liang Ding, Baopu Qiu, Boan Liu...

TL;DR通过多向设置和数据增强等方式，我们的 Vega-MT 在多语种翻译任务中取得了第一名，并将模型释放到 GitHub 和 OmniForce 平台进行进一步使用。

Abstract

We describe the JD Explore Academy's submission of the WMT 2022 shared general translation task. We participated in all high-resource tracks and one medium-resource track, including Chinese-English, German-English, Czech-English, Russian-English, and Japanese-English. We push the limit of our previous work -- →

machine translation bidirectional training multidirectional settings transformer-big data augmentation

发现论文，激发创造

WMT22 多语言机器翻译任务的 VolcTrans 系统

本报告介绍了我们的 VolcTrans 系统，它是一个基于 Transformer 的多语言模型，使用从多个来源收集的数据进行训练，包括来自数据轨道的公共训练集，由 Meta AI 提供的 NLLB 数据，自收集的平行语料库和来自反向翻译的伪双语文本。在官方测试集上，我们的系统实现了 17.3 BLEU，21.9 spBLEU，和 41.9 chrF2 ++，平均所有语言对的推理速度为每秒 11.5 句，使用单个 Nvidia Tesla V100 GPU。

Oct, 2022

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022

BJTU-WeChat 的 WMT22 聊天翻译任务系统

这篇论文介绍了北京交通大学和微信 AI 针对英德翻译任务提交 WMT'22 的联合研究，使用 Transformer 及其多种变体，并利用预训练和微调范式来提高翻译效果，并采用 speaker-aware 等效果，最终通过 boosted self-COMET-based 模型的 ensemble 获得了最高的 COMET 分数。

Nov, 2022

UvA-MT 参与 WMT23 通用翻译共享任务

通过使用一种模型处理双向任务，如最小设置的多语言机器翻译（MMT），本研究展示了在 WMT 2023 共享任务中的 UvA-MT 参与者使用两个方向：英语 <-> 希伯来语，可以实现与传统双语翻译相当的结果。通过包括有效策略，如反向翻译、重新参数化的嵌入表和任务导向的微调，在英语 -> 希伯来语和希伯来语 -> 英语两个方向上，我们在自动评估中获得了有竞争力的最终结果。

Oct, 2023

领域术语整合到机器翻译：利用大型语言模型

本文介绍了我们在德英（DE-EN）、英捷（EN-CS）和中英（ZH-EN）语言对上提交给 WMT 2023 术语共享任务的方法，通过使用大型语言模型（LLMs）生成二语合成数据并将预批准术语整合入机器翻译（MT）中，成功地提高了术语的使用率。

Oct, 2023

Adam Mickiewicz University 在 WMT 2022 中的：NER 辅助和质量感知的神经机器翻译

本文提出了 Adam Mickiewicz 大学对于 WMT 2022 通用机器翻译任务的限制性跟踪的提交结果，使用基于 transformer 架构的加权集成模型进行双向乌克兰语 <-> 捷克语翻译，使用源因子利用输入的命名实体信息，在训练数据之外使用噪声后向传递技术进行数据增强。使用 noisy back-translation 技术增加训练语料库。模型集成是由 4 个模型加权结合而成，并针对多句翻译使用了文档级模型进行训练，最后使用现有的质量估计模型和最小贝叶斯风险解码将 n-best 列表进行重排序，使得最佳假设能够根据 COMET 评估度量标准被选择。根据自动评估结果，在两个翻译方向上我们的系统排名第一。

Sep, 2022

WMT 16 爱丁堡神经机器翻译系统

我们参加了 WMT 2016 分享的新闻翻译任务，并为四种语言建立了神经翻译系统，每种语言都在英语和其它语言的两个方向上进行训练。使用了基于注意力的编码器 - 解码器、BPE 子词段和自动回译等技术，我们的方法使得我们的结果比基准系统提高了 4.3-11.2 BLEU，人工评估显示我们的系统在 8 个翻译方向中有 7 个是最好的约束系统。

Jun, 2016

WMT20 的 Volctrans 机器翻译系统

介绍我们在 WMT20 共享新闻翻译任务中使用的 VolcTrans 系统，该系统基于 Transformer，包括文本预处理、数据选择、合成数据生成、高级模型集成和多语言预训练。

Oct, 2020

阿里巴巴 - 翻译中国提交 WMT 2022 度量共享任务

该论文基于 UNITE（统一翻译评估）的核心理念，将源 - 参考 - 结合评估场景统一为一个模型，在使用不同的预训练模型背骨和不同的集成策略时，使用过去 WMT 比赛的直接评估和多维质量度量数据完成了模型预训练和微调。

Oct, 2022

WMT21 的微信神经机器翻译系统

本研究介绍了 WeChat AI 在 WMT 2021 共享新闻翻译任务中的参与，并使用 Transformer 等多种方法来生成大量的合成数据，从而实现英语到中文、英语到日语、日语到英语和英语到德语的翻译，通过使用高级微调方法和基于 Self-BLEU 的模型加强，得到了 36.9、46.9、27.8 和 31.3 的 BLEU 分数，其中英语到中文、英语到日语和日语到英语的 BLEU 分数是所有提交中最高的，而英语到德语的 BLEU 分数是所有有限制的提交中最高的。

Aug, 2021