Eval4NLP可解释质量评估共享任务：概述与结果

Oct, 2021

Eval4NLP可解释质量评估共享任务：概述与结果

The Eval4NLP Shared Task on Explainable Quality Estimation: Overview and Results

Marina Fomicheva, Piyawat Lertvittayakumjorn, Wei Zhao, Steffen Eger, Yang Gao

TL;DR本文介绍了Eval4NLP-2021的共享任务，该任务是关于可解释的自然语言处理质量估计。

Abstract

In this paper, we introduce the eval4nlp-2021shared task on explainable quality estimation. Given a source-translation pair, this shared task

发现论文，激发创造

使用跨语言Transformers的翻译质量评估

本文介绍了一种基于跨语言transformer的简单句子级质量估计框架，实现了两种不同的神经网络架构，并表明当在WMT数据集上训练时，这些方法能够超越当前开源的质量估计框架，尤其在面对低资源语言时能够获得竞争性的结果

Nov, 2020

面向自然语言生成的可解释评估度量

本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法，通过实验发现当前的对抗性NLP技术不能自动识别高质量黑盒评估指标的局限性，提出了未来解释性评估指标的发展方向。

Mar, 2022

UniTE: 统一的翻译评估

本文提出了UniTE框架，通过引入单调区域注意力和统一预训练策略，该框架具有处理机器翻译中三个质量评估任务（即只有参考文献、只有源语言和源-参考文献组合）的能力，并在WMT 2019 Metrics和WMT 2020 Quality Estimation基准测试中表现出显著的泛化能力。

Apr, 2022

CometKiwi: IST-Unbabel 2022提交的质量估计共享任务

本文介绍了我们团队在WMT 2022共享任务中的质量估计（QE）的三个子任务中所取得的最佳结果，其中我们应用了COMET框架，并将其与OpenKiwi的预测器-评估器架构相结合，并配备了一个单词级序列标注器和一个解释提取器。

Sep, 2022

自然语言处理基准测试质量相关参数综述

该文介绍了如何通过识别语言属性来发现和衡量数据倾向性，以此建立一个质量量化测度来解决NLP中benchmark存在的数据倾向性问题。

Oct, 2022

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

COMETKIWI规模化：Unbabel-IST 2023的质量估计共享任务提交

我们介绍了Unbabel和Instituto Superior Técnico在WMT 2023共享任务上对资料估计（QE）的联合贡献。我们的团队参与了所有任务：句子和单词水平的质量预测（任务1）以及精细错误跨度检测（任务2）。对于所有任务，我们基于COMETKIWI-22模型（Rei et al., 2022b）进行开发。我们的多语种方法在所有任务中排名第一，在单词、跨度和句子级别的质量估计方面达到了最新水平的性能。与以前的最新技术COMETKIWI-22相比，我们在与人类判断相关性方面取得了很大的改进（达到了10个Spearman分数）。此外，我们在共享任务中超过了第二好的多语种提交，达到了3.8个绝对分数。

Sep, 2023

NJUNLP参加WMT2023质量评估共享任务

我们介绍了NJUNLP团队在WMT 2023质量估计（QE）共享任务中的提交。我们的团队针对英德语言对，对两个子任务进行了预测:（i）句子和单词级质量预测; （ii）细粒度错误跨度检测。今年，我们在NJUQE框架上进一步探索了基于伪数据方法的QE。我们使用WMT翻译任务的平行数据生成伪MQM数据。我们在伪QE数据上对XLMR大模型进行预训练，然后在真实QE数据上进行微调。在这两个阶段，我们同时学习句子级分数和单词级标签。通过实验证明，我们进行了实验以找到提高性能的关键超参数。在技术上，我们提出了一种简单的方法，将单词级输出转换为细粒度错误跨度结果。总的来说，我们的模型在英德语言对的单词级和细粒度错误跨度检测子任务中取得了最佳结果，并且差距明显。

Sep, 2023

2023 Eval4NLP 子任务: 使用促使大型语言模型作为解释性⽅法的度量

介绍了Eval4NLP 2023共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有fine-tuning的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括GEMBA和Comet-Kiwi-XXL）相媲美甚至超过，并对LLMs的解释的可行性进行了小规模人类评估。

Oct, 2023

小巨人：探索小型LLMs作为Eval4NLP 2023共享任务摘要评估度量的潜力

本文描述和分析了我们参与2023 Eval4NLP共享任务的工作，该任务主要关注评估基于提示的技术对大型语言模型在质量估计任务中的有效性，特别是在评估机器翻译和摘要的背景下。我们进行了系统实验，尝试了各种提示技术，包括标准提示、基于注释人指示的提示和创新的思路链提示。此外，我们结合了零样本学习和一次性学习方法，以最大化我们的评估程序的效力。我们的工作表明，使用“小型”开源模型（orca_mini_v3_7B）结合这些方法可以取得具有竞争力的结果。

Nov, 2023