NJUNLP 参加 WMT2023 质量评估共享任务

Sep, 2023

NJUNLP 参加 WMT2023 质量评估共享任务

NJUNLP's Participation for the WMT2023 Quality Estimation Shared Task

Xiang Geng, Zhejian Lai, Yu Zhang, Shimin Tao, Hao Yang...

TL;DR我们介绍了 NJUNLP 团队在 WMT 2023 质量估计（QE）共享任务中的提交。我们的团队针对英德语言对，对两个子任务进行了预测:（i）句子和单词级质量预测；（ii）细粒度错误跨度检测。今年，我们在 NJUQE 框架上进一步探索了基于伪数据方法的 QE。我们使用 WMT 翻译任务的平行数据生成伪 MQM 数据。我们在伪 QE 数据上对 XLMR 大模型进行预训练，然后在真实 QE 数据上进行微调。在这两个阶段，我们同时学习句子级分数和单词级标签。通过实验证明，我们进行了实验以找到提高性能的关键超参数。在技术上，我们提出了一种简单的方法，将单词级输出转换为细粒度错误跨度结果。总的来说，我们的模型在英德语言对的单词级和细粒度错误跨度检测子任务中取得了最佳结果，并且差距明显。

Abstract

We introduce the submissions of the NJUNLP team to the WMT 2023 Quality Estimation (QE) shared task. Our team submitted predictions for the english-german language pair on all two sub-tasks: (i) sentence- and word-level quality prediction; and (ii) →

wmt 2023 quality estimation english-german language pair pseudo data methods njuqe framework fine-grained error span detection

发现论文，激发创造

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

CometKiwi: IST-Unbabel 2022 提交的质量估计共享任务

本文介绍了我们团队在 WMT 2022 共享任务中的质量估计（QE）的三个子任务中所取得的最佳结果，其中我们应用了 COMET 框架，并将其与 OpenKiwi 的预测器 - 评估器架构相结合，并配备了一个单词级序列标注器和一个解释提取器。

Sep, 2022

Unbabel 参加 WMT19 翻译质量评估共享任务

Unbabel 团队在 WMT 2019 共享任务中，利用 OpenKiwi 框架及 BERT 和 XLM 预训练模型进行传输学习，提出了用于词和句级别预测的新集成技术，并将单词标签转换为文档级别预测，取得了所有语言对和轨迹上显著的最佳结果。

Jul, 2019

TransQuest 在 WMT2020 上的句子级直接评估

本文介绍了 TransQuest 团队在 WMT2020 的句子级直接评估任务中的参与，提出了一种基于跨语言 transformer 的简单 QE 框架，并使用它来实现和评估两个不同的神经架构。该方法取得了超越基线 OpenKiwi 的最新结果，并通过进行集成和数据增强进行了进一步优化。根据 WMT2020 的官方结果，我们的方法在所有语言配对中均获胜。

Oct, 2020

重新思考基于人工判断的机器翻译单词质量评估

该论文旨在通过自监督的预训练方法以及标记修正策略，提高机器翻译的质量估计，避免传统质量评价准则的局限性，并通过人类专家的直接评注来构建不需要参考文献的数据集 HJQE 的实验结果证实了我们的方法的有效性。

Sep, 2022

COMETKIWI 规模化：Unbabel-IST 2023 的质量估计共享任务提交

我们介绍了 Unbabel 和 Instituto Superior Técnico 在 WMT 2023 共享任务上对资料估计（QE）的联合贡献。我们的团队参与了所有任务：句子和单词水平的质量预测（任务 1）以及精细错误跨度检测（任务 2）。对于所有任务，我们基于 COMETKIWI-22 模型（Rei et al., 2022b）进行开发。我们的多语种方法在所有任务中排名第一，在单词、跨度和句子级别的质量估计方面达到了最新水平的性能。与以前的最新技术 COMETKIWI-22 相比，我们在与人类判断相关性方面取得了很大的改进（达到了 10 个 Spearman 分数）。此外，我们在共享任务中超过了第二好的多语种提交，达到了 3.8 个绝对分数。

Sep, 2023

2023 年 SurreyAI 质量评估共享任务提交

本研究描述了 SurreyAI 团队在 WMT23 的句子级直接评估共享任务中采用的方法，该方法在 TransQuest 框架的基础上利用自编码器预训练语言模型构建 MonoTransQuest 架构，并使用单一和集合设置。通过使用斯皮尔曼和皮尔逊相关系数评估机器预测质量分数与人工判断之间的关系，对 5 个语言对（英古吉拉特语、英印地语、英马拉地语、英泰米尔语和英泰卢固语）进行了评估，其中 MonoTQ-InfoXLM-large 方法在大多数语言对中显著改进了基线，并成为一种强大的策略。

Dec, 2023

针对低资源语言的不匹配感知无监督翻译质量评估

本文提出了一种简单的无监督翻译质量评估方法 XLMRScore，该方法基于使用 XLM-RoBERTa 模型计算的 BertScore，并讨论了使用此方法时出现的问题。接着，我们提出两种方法来缓解问题，并将所提出的方法用于四个 WMT21 QE shared task 中的低资源语言对以及本文介绍的一个新的英语 - 波斯语测试数据集。实验表明，在两个零 - shot 场景下，我们的方法可以获得与有监督基线相当的结果，即 Pearson 相关性差异小于 0.01，在所有低资源语言对中的表现均优于无监督对手，平均超过 8％。

Jul, 2022

跨语言 Transformer 多语言词级质量评估的探索性分析

本文探讨了以往机器翻译的词汇质量评估模型的局限性，并提出了基于强大的预训练 Transformer 模型的跨语言通用性的词汇质量评估模型，证明其在跨语言模型训练、零样本 / 少样本数据归集的情况下，很好地泛化了，并且在实际应用中具有更广泛的应用前景。

May, 2021

阿里巴巴 - 翻译中国提交 WMT 2022 度量共享任务

该论文基于 UNITE（统一翻译评估）的核心理念，将源 - 参考 - 结合评估场景统一为一个模型，在使用不同的预训练模型背骨和不同的集成策略时，使用过去 WMT 比赛的直接评估和多维质量度量数据完成了模型预训练和微调。

Oct, 2022