Unbabel 参与 WMT20 度量共享任务

Oct, 2020

Unbabel's Participation in the WMT20 Metrics Shared Task

Ricardo Rei, Craig Stewart, Catarina Farinha, Alon Lavie

TL;DRUnbabel 团队在 WMT 2020 共享任务中提交了关于分段级别、文档级别和系统级别所有语言对的模型，并提出了一种简单的将分段级别预测转换为文档级别得分的技术，其结果表明使用 COMET 框架训练的模型取得了所有语言对的强大结果，在许多情况下，都提高了最先进的水平。

Abstract

We present the contribution of the unbabel team to the wmt 2020 Shared Task on metrics. We intend to participate on the segment-level, doc

unbabel wmt 2020 metrics comet direct assessments

发现论文，激发创造

Unbabel 参加 WMT19 翻译质量评估共享任务

Unbabel 团队在 WMT 2019 共享任务中，利用 OpenKiwi 框架及 BERT 和 XLM 预训练模型进行传输学习，提出了用于词和句级别预测的新集成技术，并将单词标签转换为文档级别预测，取得了所有语言对和轨迹上显著的最佳结果。

Jul, 2019

COMETKIWI 规模化：Unbabel-IST 2023 的质量估计共享任务提交

我们介绍了 Unbabel 和 Instituto Superior Técnico 在 WMT 2023 共享任务上对资料估计（QE）的联合贡献。我们的团队参与了所有任务：句子和单词水平的质量预测（任务 1）以及精细错误跨度检测（任务 2）。对于所有任务，我们基于 COMETKIWI-22 模型（Rei et al., 2022b）进行开发。我们的多语种方法在所有任务中排名第一，在单词、跨度和句子级别的质量估计方面达到了最新水平的性能。与以前的最新技术 COMETKIWI-22 相比，我们在与人类判断相关性方面取得了很大的改进（达到了 10 个 Spearman 分数）。此外，我们在共享任务中超过了第二好的多语种提交，达到了 3.8 个绝对分数。

Sep, 2023

阿里巴巴 - 翻译中国提交 WMT 2022 度量共享任务

该论文基于 UNITE（统一翻译评估）的核心理念，将源 - 参考 - 结合评估场景统一为一个模型，在使用不同的预训练模型背骨和不同的集成策略时，使用过去 WMT 比赛的直接评估和多维质量度量数据完成了模型预训练和微调。

Oct, 2022

CometKiwi: IST-Unbabel 2022 提交的质量估计共享任务

本文介绍了我们团队在 WMT 2022 共享任务中的质量估计（QE）的三个子任务中所取得的最佳结果，其中我们应用了 COMET 框架，并将其与 OpenKiwi 的预测器 - 评估器架构相结合，并配备了一个单词级序列标注器和一个解释提取器。

Sep, 2022

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

NJUNLP 参加 WMT2023 质量评估共享任务

我们介绍了 NJUNLP 团队在 WMT 2023 质量估计（QE）共享任务中的提交。我们的团队针对英德语言对，对两个子任务进行了预测:（i）句子和单词级质量预测；（ii）细粒度错误跨度检测。今年，我们在 NJUQE 框架上进一步探索了基于伪数据方法的 QE。我们使用 WMT 翻译任务的平行数据生成伪 MQM 数据。我们在伪 QE 数据上对 XLMR 大模型进行预训练，然后在真实 QE 数据上进行微调。在这两个阶段，我们同时学习句子级分数和单词级标签。通过实验证明，我们进行了实验以找到提高性能的关键超参数。在技术上，我们提出了一种简单的方法，将单词级输出转换为细粒度错误跨度结果。总的来说，我们的模型在英德语言对的单词级和细粒度错误跨度检测子任务中取得了最佳结果，并且差距明显。

Sep, 2023

学习评估英语之外的翻译：BLEURT 参加 WMT 评估 2020 共享任务

本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献，通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对，针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强，实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果，并展示了其在 2020 年版中的潜力。

Oct, 2020

TransQuest 在 WMT2020 上的句子级直接评估

本文介绍了 TransQuest 团队在 WMT2020 的句子级直接评估任务中的参与，提出了一种基于跨语言 transformer 的简单 QE 框架，并使用它来实现和评估两个不同的神经架构。该方法取得了超越基线 OpenKiwi 的最新结果，并通过进行集成和数据增强进行了进一步优化。根据 WMT2020 的官方结果，我们的方法在所有语言配对中均获胜。

Oct, 2020

令人尴尬的简单文档级机器翻译度量方法：如何将任何预训练度量转化为文档级度量

通过在文档级别引入上下文内容，可以扩展当前基于句子级别的机器翻译度量，提高翻译质量和准确性。

Sep, 2022

WMT2021 度量任务中 RoBLEURT 的提交

本文介绍我们对 RoBLEURT（Robustly Optimizing the training of BLEURT）分享指标任务的提交，并通过联合利用源自模型和仅参考模型优势、大量合成数据对模型进行持续预训练和使用数据去噪策略进行微调等关键操作，实现了在 8 个中英翻译语言对上达到 WMT2020 人类注释技术最高相关性的模型。

Apr, 2022