CometKiwi: IST-Unbabel 2022 提交的质量估计共享任务

Sep, 2022

CometKiwi: IST-Unbabel 2022 提交的质量估计共享任务

CometKiwi: IST-Unbabel 2022 Submission for the Quality Estimation Shared Task

Ricardo Rei, Marcos Treviso, Nuno M. Guerreiro, Chrysoula Zerva, Ana C. Farinha...

TL;DR本文介绍了我们团队在 WMT 2022 共享任务中的质量估计（QE）的三个子任务中所取得的最佳结果，其中我们应用了 COMET 框架，并将其与 OpenKiwi 的预测器 - 评估器架构相结合，并配备了一个单词级序列标注器和一个解释提取器。

Abstract

We present the joint contribution of IST and Unbabel to the WMT 2022 Shared Task on quality estimation (QE). Our team participated on all three subtasks: (i) Sentence and Word-level Quality Prediction; (ii) explainable

quality estimation comet framework predictor-estimator architecture explainable qe critical error detection

发现论文，激发创造

COMETKIWI 规模化：Unbabel-IST 2023 的质量估计共享任务提交

我们介绍了 Unbabel 和 Instituto Superior Técnico 在 WMT 2023 共享任务上对资料估计（QE）的联合贡献。我们的团队参与了所有任务：句子和单词水平的质量预测（任务 1）以及精细错误跨度检测（任务 2）。对于所有任务，我们基于 COMETKIWI-22 模型（Rei et al., 2022b）进行开发。我们的多语种方法在所有任务中排名第一，在单词、跨度和句子级别的质量估计方面达到了最新水平的性能。与以前的最新技术 COMETKIWI-22 相比，我们在与人类判断相关性方面取得了很大的改进（达到了 10 个 Spearman 分数）。此外，我们在共享任务中超过了第二好的多语种提交，达到了 3.8 个绝对分数。

Sep, 2023

Unbabel 参加 WMT19 翻译质量评估共享任务

Unbabel 团队在 WMT 2019 共享任务中，利用 OpenKiwi 框架及 BERT 和 XLM 预训练模型进行传输学习，提出了用于词和句级别预测的新集成技术，并将单词标签转换为文档级别预测，取得了所有语言对和轨迹上显著的最佳结果。

Jul, 2019

NJUNLP 参加 WMT2023 质量评估共享任务

我们介绍了 NJUNLP 团队在 WMT 2023 质量估计（QE）共享任务中的提交。我们的团队针对英德语言对，对两个子任务进行了预测:（i）句子和单词级质量预测；（ii）细粒度错误跨度检测。今年，我们在 NJUQE 框架上进一步探索了基于伪数据方法的 QE。我们使用 WMT 翻译任务的平行数据生成伪 MQM 数据。我们在伪 QE 数据上对 XLMR 大模型进行预训练，然后在真实 QE 数据上进行微调。在这两个阶段，我们同时学习句子级分数和单词级标签。通过实验证明，我们进行了实验以找到提高性能的关键超参数。在技术上，我们提出了一种简单的方法，将单词级输出转换为细粒度错误跨度结果。总的来说，我们的模型在英德语言对的单词级和细粒度错误跨度检测子任务中取得了最佳结果，并且差距明显。

Sep, 2023

Unbabel 参与 WMT20 度量共享任务

Unbabel 团队在 WMT 2020 共享任务中提交了关于分段级别、文档级别和系统级别所有语言对的模型，并提出了一种简单的将分段级别预测转换为文档级别得分的技术，其结果表明使用 COMET 框架训练的模型取得了所有语言对的强大结果，在许多情况下，都提高了最先进的水平。

Oct, 2020

TransQuest 在 WMT2020 上的句子级直接评估

本文介绍了 TransQuest 团队在 WMT2020 的句子级直接评估任务中的参与，提出了一种基于跨语言 transformer 的简单 QE 框架，并使用它来实现和评估两个不同的神经架构。该方法取得了超越基线 OpenKiwi 的最新结果，并通过进行集成和数据增强进行了进一步优化。根据 WMT2020 的官方结果，我们的方法在所有语言配对中均获胜。

Oct, 2020

不排名，合并！使用质量估计组合机器翻译假设

使用质量评估指标（QE）的方法 ——QE-fusion，能够利用候选池子中的不同候选结合 QE 度量，从而更好地对应人类判断，从而合成改进的翻译。QE-fusion 是一种与波束搜索和最新的重新排序技术（如最小贝叶斯风险解码和 QE - 重新排序）相比的方法，能在大型语言模型和多语种翻译模型上提高翻译质量。该方法在近半数的情况下生成了新颖的翻译，并在候选数量（5-200）不同的情况下始终优于其他方法。此外，实验证明 QE-fusion 与候选池中的候选数量呈线性关系，并且无需对大型语言模型进行昂贵的重新训练。

Jan, 2024

2023 年 SurreyAI 质量评估共享任务提交

本研究描述了 SurreyAI 团队在 WMT23 的句子级直接评估共享任务中采用的方法，该方法在 TransQuest 框架的基础上利用自编码器预训练语言模型构建 MonoTransQuest 架构，并使用单一和集合设置。通过使用斯皮尔曼和皮尔逊相关系数评估机器预测质量分数与人工判断之间的关系，对 5 个语言对（英古吉拉特语、英印地语、英马拉地语、英泰米尔语和英泰卢固语）进行了评估，其中 MonoTQ-InfoXLM-large 方法在大多数语言对中显著改进了基线，并成为一种强大的策略。

Dec, 2023

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

跨语言 Transformer 多语言词级质量评估的探索性分析

本文探讨了以往机器翻译的词汇质量评估模型的局限性，并提出了基于强大的预训练 Transformer 模型的跨语言通用性的词汇质量评估模型，证明其在跨语言模型训练、零样本 / 少样本数据归集的情况下，很好地泛化了，并且在实际应用中具有更广泛的应用前景。

May, 2021

重新思考基于人工判断的机器翻译单词质量评估

该论文旨在通过自监督的预训练方法以及标记修正策略，提高机器翻译的质量估计，避免传统质量评价准则的局限性，并通过人类专家的直接评注来构建不需要参考文献的数据集 HJQE 的实验结果证实了我们的方法的有效性。

Sep, 2022