通过稳定的排名概率寻找可复制的人类评估

ACLApr, 2024

通过稳定的排名概率寻找可复制的人类评估

Finding Replicable Human Evaluations via Stable Ranking Probability

Parker Riley, Daniel Deutsch, George Foster, Viresh Ratnakar, Ali Dabirmoghaddam...

TL;DR本文以机器翻译及其人类评估框架 MQM 为案例研究，旨在探讨如何建立可靠的人类评估，以获得稳定的结论，并提供设计可复制的人类评估研究的具体建议，同时发布了由多名专业翻译人员评分的最大公开可用翻译数据集。

Abstract

Reliable human evaluation is critical to the development of successful natural language generation models, but achieving it is notoriously difficult. Stability is a crucial requirement when ranking systems by qua

human evaluation natural language generation models machine translation mqm professional translators

发现论文，激发创造

RankME：自然语言生成的可靠人类评级

本文提出了一种新颖的基于排名的幅度估计方法（RankME），用于改善自然语言生成过程中人类评价的一致性和可靠性，并且可以根据多个不同的标准评估系统质量，是一种有效和经济的评估方法。

Mar, 2018

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

基于预测的大型语言模型排序

使用统计框架，我们可以以一定的概率保证，通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。

Feb, 2024

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

评估人机语言翻译平衡性的建议

研究发现 2018 年 Hassan 等人的评估设计有问题，导致其认为人工翻译和机器翻译有同等水平的结论不准确，因此需要重新审视现有的评估方法，并且提出了一系列改进建议。

Apr, 2020

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

HumanRankEval: 作为对话助手的语言模型的自动评估

为了加快语言模型作为对话助手的发展，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一个大规模、多样化和高质量的问题集组成，每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排名的相关性，我们支持了 HRE 的有效性，并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了 HRE 与人类判断相关，并且在指导调整后对模型变化特别敏感。

May, 2024

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

不同语言配对机器翻译的一致人工评估

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022