超越随机：通过受限主动抽样进行可靠的自然语言生成人工评估

Jun, 2024

超越随机：通过受限主动抽样进行可靠的自然语言生成人工评估

Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling

Jie Ruan, Xiao Pu, Mingqi Gao, Xiaojun Wan, Yuesheng Zhu

TL;DR为了提供更准确的系统间排名并使黄金标准的人工评估更可靠，我们提出了一种被限制的主动采样框架（CASF）用于可靠的人工判断。通过学习器、系统化采样器和约束控制器，CASF 选择代表性样本以获得更准确的系统间排名。CASF 在 137 个真实的 NLG 评估设置上进行了实验，涉及 16 个数据集和 5 个 NLG 任务，使用了 44 个人工评估指标。实验结果展示 CASF 在 93.18% 的情况下成功识别出排名最高的系统，并在 90.91% 的人工评估指标上排名第一或第二，整体系统间排名 Kendall 相关性为 0.83。代码和数据可在网上公开获得。

Abstract

human evaluation is viewed as a reliable evaluation method for nlg which is expensive and time-consuming. To save labor and costs, researc

human evaluation nlg constrained active sampling framework inter-system ranking reliable

发现论文，激发创造

Active Evaluation: 用少量成对比较有效评估自然语言生成 (NLG)

本文介绍了一种名为 Active Evaluation 的框架，它可以通过使用对决式神经网络算法来主动地选择系统对进行比较，从而有效地降低手动注释的数量，并进一步提出了基于模型的对决式神经网络算法，将自动评估指标与人工评估相结合，从而进一步降低了人类注释的数量。

Mar, 2022

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

ConSiDERS 人类评估框架：重新思考生成式大型语言模型的人类评估

通过借鉴用户体验研究和人类行为心理学等学科的见解，我们在这篇论文中讨论了生成式大型语言模型（LLMs）的人工评估应该是一项跨学科工作，以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性，以及认知不确定性如何影响评分（如 Likert）的可靠性。此外，评估应该区分越来越强大的大型语言模型的能力和弱点，这需要有效的测试集。在生成式 NLP 时代设计一个有效的人工评估系统的可伸缩性也至关重要，因此我们提出了 ConSiDERS-The-Human 评估框架，它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这 6 个支柱组成。

May, 2024

HumanRankEval: 作为对话助手的语言模型的自动评估

为了加快语言模型作为对话助手的发展，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一个大规模、多样化和高质量的问题集组成，每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排名的相关性，我们支持了 HRE 的有效性，并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了 HRE 与人类判断相关，并且在指导调整后对模型变化特别敏感。

May, 2024

分级评估框架：人工评估的最佳实践

通过对现有文献进行广泛分析，我们发现在自然语言处理的人工评估方法中存在一些缺陷，这促使我们开发了一种层次化评估框架，该框架具有更全面地表示自然语言处理系统性能的显著优点，并应用于评估机器阅读理解系统及其与人工智能共生模型中的输入和输出的质量之间的关联。

Oct, 2023

RankME：自然语言生成的可靠人类评级

本文提出了一种新颖的基于排名的幅度估计方法（RankME），用于改善自然语言生成过程中人类评价的一致性和可靠性，并且可以根据多个不同的标准评估系统质量，是一种有效和经济的评估方法。

Mar, 2018

大规模信息检索评估的活跃抽样

本文提出一种结合两种方法 —— 抽样和主动选择文档 —— 的大规模信息检索评估方法，其通过向系统分配分布并在评估过程中修改来减少样本偏差，并使用 TREC 数据验证其优点。

Sep, 2017

面向主观 NLP 任务的标注者中心主动学习

利用主观自然语言处理任务进行准确的人类判断的关键是在注释过程中纳入广泛的视角。引入了注释者中心主动学习策略 (ACAL)，结合数据采样和注释者选择策略，旨在高效地近似获取人类判断的全面多样性，并使用注释者中心度量评估模型性能。对于七个主观自然语言处理任务进行了多种注释者选择策略的实验，同时采用了传统和新颖的以人为中心的评估指标。结果表明，ACAL 提高了数据效率并在注释者中心度量评估中表现出色，但其成功仍取决于足够大而多样的注释者样本池的可用性。

Apr, 2024