WMT20 的 Volctrans 机器翻译系统
本报告介绍了我们的 VolcTrans 系统,它是一个基于 Transformer 的多语言模型,使用从多个来源收集的数据进行训练,包括来自数据轨道的公共训练集,由 Meta AI 提供的 NLLB 数据,自收集的平行语料库和来自反向翻译的伪双语文本。在官方测试集上,我们的系统实现了 17.3 BLEU,21.9 spBLEU,和 41.9 chrF2 ++,平均所有语言对的推理速度为每秒 11.5 句,使用单个 Nvidia Tesla V100 GPU。
Oct, 2022
本论文介绍了 Volctrans 在 WMT21 新闻翻译共享任务中的贡献,利用 Glancing Transformer 构建并行翻译系统,取得了在德语 -> 英语翻译任务上的最佳 BLEU 得分(35.0),超过了所有强的自回归对应物。
Sep, 2021
介绍了 NiuTrans 神经机器翻译系统及其在多个语言(包括中文、日语、俄语、冰岛语)的 WMT2021 新闻翻译任务中的应用,利用多种方法包括 Transformer、回译、知识蒸馏和微调等提高翻译的性能。
Sep, 2021
该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统,包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译,在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值,并接近强级联解决方案的结果。针对文本 - 文本同时翻译,他们探索了最优的 wait-k 模型实践,并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。
May, 2021
该论文探究利用多种不同的神经模型进行翻译的组合,其中包括递归、卷积和自注意力模型,最终结合短语基 SMT 系统的 MBR 方案,相较于强 Transformer 模型集合,取得了小但一致的收益。
Aug, 2018
我们参加了 WMT 2016 分享的新闻翻译任务,并为四种语言建立了神经翻译系统,每种语言都在英语和其它语言的两个方向上进行训练。使用了基于注意力的编码器 - 解码器、BPE 子词段和自动回译等技术,我们的方法使得我们的结果比基准系统提高了 4.3-11.2 BLEU,人工评估显示我们的系统在 8 个翻译方向中有 7 个是最好的约束系统。
Jun, 2016
微软研究亚洲在 WMT19 新闻翻译任务中使用 Transformer、反向翻译和知识蒸馏等技术并结合多智能体双向学习、掩码序列到序列预训练、神经架构优化及软性上下文数据增强等技术在 11 个语言方向中获得了 8 个方向的第一名。
Nov, 2019
本文介绍 Microsoft 在 WMT21 大规模多语言机器翻译竞赛中使用的机器翻译系统,该系统使用基于 DeltaLM 的泛用预训练多语言编码器 - 解码器模型进行初始化,应用迭代反向翻译方法和渐进式学习来优化性能,在三个评估轨迹中都获得了第一名。
Nov, 2021
本文介绍了悉尼大学参加 WMT 2019 共享新闻翻译任务的提交。通过将学术研究中的最新的有效策略(例如,BPE、回译、多特征数据选择、数据增强、贪婪模型集成、reranking、ConMBR 系统组合和后处理)与自注意力 Transformer 网络相结合,提出了一种新的增强方法 Cycle Translation 和数据混合策略大 / 小并行构建,全面利用合成语料库。大量实验证明,添加上述技术可以使 BLEU 分数不断提高,最佳结果比基准线(使用原始平行语料库训练的 Transformer 集成模型)的 BLEU 分数高出约 5.3 个 BLEU 分,达到最先进的表现。
Jun, 2019
本文介绍了 NICT 参与 WMT18 新闻翻译任务的结果,通过采用统计机器翻译和神经机器翻译系统以及使用大量反向翻译单语数据,结合使用 transformer architecture,对于爱沙尼亚语对英语、芬兰语对英语等语言方向实现了 BLEU 评分的领先。
Sep, 2018