阿里巴巴 - 翻译中国提交 WMT 2022 度量共享任务

Oct, 2022

阿里巴巴 - 翻译中国提交 WMT 2022 度量共享任务

Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task

Yu Wan, Keqin Bao, Dayiheng Liu, Baosong Yang, Derek F. Wong...

TL;DR该论文基于 UNITE（统一翻译评估）的核心理念，将源 - 参考 - 结合评估场景统一为一个模型，在使用不同的预训练模型背骨和不同的集成策略时，使用过去 WMT 比赛的直接评估和多维质量度量数据完成了模型预训练和微调。

Abstract

In this report, we present our submission to the WMT 2022 Metrics Shared Task. We build our system based on the core idea of unite (Unified Translation Evaluation), which unifies source-only, reference-only, and source-reference-combined evaluation scenarios into one single model. Spec

translation evaluation unite pre-training fine-tuning language model

发现论文，激发创造

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

UniTE: 统一的翻译评估

本文提出了 UniTE 框架，通过引入单调区域注意力和统一预训练策略，该框架具有处理机器翻译中三个质量评估任务（即只有参考文献、只有源语言和源 - 参考文献组合）的能力，并在 WMT 2019 Metrics 和 WMT 2020 Quality Estimation 基准测试中表现出显著的泛化能力。

Apr, 2022

Unbabel 参与 WMT20 度量共享任务

Unbabel 团队在 WMT 2020 共享任务中提交了关于分段级别、文档级别和系统级别所有语言对的模型，并提出了一种简单的将分段级别预测转换为文档级别得分的技术，其结果表明使用 COMET 框架训练的模型取得了所有语言对的强大结果，在许多情况下，都提高了最先进的水平。

Oct, 2020

TSMind：阿里巴巴与苏州大学 WMT22 翻译建议任务的提交

该研究使用下游任务上的模型典范微调的方式，以最近取得巨大成功的巨型规模预训练模型为基础，并采用数据增强技术和条件交叉熵模型以提高机器翻译的性能，最终在 WMT22 中 Naive TS 任务的四个语言方向中的三个中排名第一。

Nov, 2022

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022

Unbabel 参加 WMT19 翻译质量评估共享任务

Unbabel 团队在 WMT 2019 共享任务中，利用 OpenKiwi 框架及 BERT 和 XLM 预训练模型进行传输学习，提出了用于词和句级别预测的新集成技术，并将单词标签转换为文档级别预测，取得了所有语言对和轨迹上显著的最佳结果。

Jul, 2019

Adam Mickiewicz University 在 WMT 2022 中的：NER 辅助和质量感知的神经机器翻译

本文提出了 Adam Mickiewicz 大学对于 WMT 2022 通用机器翻译任务的限制性跟踪的提交结果，使用基于 transformer 架构的加权集成模型进行双向乌克兰语 <-> 捷克语翻译，使用源因子利用输入的命名实体信息，在训练数据之外使用噪声后向传递技术进行数据增强。使用 noisy back-translation 技术增加训练语料库。模型集成是由 4 个模型加权结合而成，并针对多句翻译使用了文档级模型进行训练，最后使用现有的质量估计模型和最小贝叶斯风险解码将 n-best 列表进行重排序，使得最佳假设能够根据 COMET 评估度量标准被选择。根据自动评估结果，在两个翻译方向上我们的系统排名第一。

Sep, 2022

WMT17 多模式翻译任务的 CUNI 系统

本文描述了我们在 WMT17 多模态翻译任务中的提交内容，其中通过使用来自平行语料和回译的方法获取了额外的数据，建立了纯文本神经翻译模型进行多模态翻译，并使用最佳系统将英语字幕翻译为目标语言。我们还展示了一些未能有效提高翻译性能的负面结果。

Jul, 2017

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

NJUNLP 参加 WMT2023 质量评估共享任务

我们介绍了 NJUNLP 团队在 WMT 2023 质量估计（QE）共享任务中的提交。我们的团队针对英德语言对，对两个子任务进行了预测:（i）句子和单词级质量预测；（ii）细粒度错误跨度检测。今年，我们在 NJUQE 框架上进一步探索了基于伪数据方法的 QE。我们使用 WMT 翻译任务的平行数据生成伪 MQM 数据。我们在伪 QE 数据上对 XLMR 大模型进行预训练，然后在真实 QE 数据上进行微调。在这两个阶段，我们同时学习句子级分数和单词级标签。通过实验证明，我们进行了实验以找到提高性能的关键超参数。在技术上，我们提出了一种简单的方法，将单词级输出转换为细粒度错误跨度结果。总的来说，我们的模型在英德语言对的单词级和细粒度错误跨度检测子任务中取得了最佳结果，并且差距明显。

Sep, 2023