TSMind:阿里巴巴与 苏州大学 WMT22 翻译建议任务的提交
WMT 共享任务中,我们获得了 92 个参与队伍提交的数据,使用 BLEU 自动评估指标对机器翻译中的翻译建议进行了评估,并提供了英德和英汉语料库来进行两个子任务的翻译建议。
Nov, 2022
该论文基于 UNITE(统一翻译评估)的核心理念,将源 - 参考 - 结合评估场景统一为一个模型,在使用不同的预训练模型背骨和不同的集成策略时,使用过去 WMT 比赛的直接评估和多维质量度量数据完成了模型预训练和微调。
Oct, 2022
本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术,在英汉、波兰英语和德国上索布里亚语等四个方向中,我们获得了第一名的好成绩。
Oct, 2020
这篇论文介绍了北京交通大学和微信 AI 针对英德翻译任务提交 WMT'22 的联合研究,使用 Transformer 及其多种变体,并利用预训练和微调范式来提高翻译效果,并采用 speaker-aware 等效果,最终通过 boosted self-COMET-based 模型的 ensemble 获得了最高的 COMET 分数。
Nov, 2022
本文介绍了微软参加 WMT2018 新闻翻译共享任务的提交,对于英语到德语的一种语言方向中,基于最佳实践,采用了最先进的模型和新数据过滤和句子加权方法来训练在 Paracrawl 上实验结果表明,根据自动指标 (BLEU),我们在此子任务中得分最高,比接下来最强大的系统高近 2 BLEU 分数,根据人工评估,我们在受限系统中排名第一,我们认为这主要是由于我们的数据过滤 / 加权组合的实施。
Sep, 2018
介绍了我们在 WMT'22 翻译建议共享任务中提交的系统,该系统基于多种翻译架构的集合,并使用三种策略构建合成数据以补偿监督数据的缺乏,并引入多阶段预训练策略,并在英德和英汉双向任务中排名第二和第三。
Oct, 2022
本研究使用 UniTE 框架,通过预训练语言模型的三种输入格式进行训练,并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型(XLM-R 和 InfoXLM)的预测进行集成,取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现,表明了相对强的性能。
Oct, 2022
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022
微软研究亚洲在 WMT19 新闻翻译任务中使用 Transformer、反向翻译和知识蒸馏等技术并结合多智能体双向学习、掩码序列到序列预训练、神经架构优化及软性上下文数据增强等技术在 11 个语言方向中获得了 8 个方向的第一名。
Nov, 2019
本文介绍了微信参与 WMT 2022 共享生物医学翻译任务的情况,我们基于 Transformer 模型构建系统,采用数据过滤、数据增强、多种 Transformer 变体、微调和模型集成等方法来提高翻译质量,其中我们的中文至英文系统名为 Summer,在所有提交作品中获得最高 BLEU 分数。
Nov, 2022