Active Evaluation: 用少量成对比较有效评估自然语言生成 (NLG)

ACLMar, 2022

Active Evaluation: 用少量成对比较有效评估自然语言生成 (NLG)

Active Evaluation: Efficient NLG Evaluation with Few Pairwise Comparisons

Akash Kumar Mohankumar, Mitesh M. Khapra

TL;DR本文介绍了一种名为 Active Evaluation 的框架，它可以通过使用对决式神经网络算法来主动地选择系统对进行比较，从而有效地降低手动注释的数量，并进一步提出了基于模型的对决式神经网络算法，将自动评估指标与人工评估相结合，从而进一步降低了人类注释的数量。

Abstract

Recent studies have shown the advantages of evaluating NLG systems using pairwise comparisons as opposed to direct assessment. Given $k$ systems, a naive approach for identifying the top-ranked system would be to uniformly obtain →

natural language generation pairwise comparisons active evaluation dueling bandit algorithms human annotations

发现论文，激发创造

超越随机：通过受限主动抽样进行可靠的自然语言生成人工评估

为了提供更准确的系统间排名并使黄金标准的人工评估更可靠，我们提出了一种被限制的主动采样框架（CASF）用于可靠的人工判断。通过学习器、系统化采样器和约束控制器，CASF 选择代表性样本以获得更准确的系统间排名。CASF 在 137 个真实的 NLG 评估设置上进行了实验，涉及 16 个数据集和 5 个 NLG 任务，使用了 44 个人工评估指标。实验结果展示 CASF 在 93.18% 的情况下成功识别出排名最高的系统，并在 90.91% 的人工评估指标上排名第一或第二，整体系统间排名 Kendall 相关性为 0.83。代码和数据可在网上公开获得。

Jun, 2024

多路对决棍手算法及其在在线排序器评估中的应用

提出了一种新的 dueling bandits 模型来解决在线排名器评估中的探索 - 开发权衡问题，该模型使用对于无限数量的排名器的同时比较。实验结果表明，该算法与现有的最先进的 dueling bandit 算法相比，表现出了数量级的性能提升。

Aug, 2016

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

使用 LLMs 的 Pairwise 比较进行零样本自然语言生成评估

通过用自然语言生成技术输出的对比评估方法来检验大型自然语言模型的表现，使得在不依靠特定域和属性情况下进行评估成为可能。

Jul, 2023

主动测试：一个高效和稳健的估计准确性的框架

本研究致力于解决在大型带噪数据集上扩大模型评估规模的问题，并采用主动测试框架，有效查询用户，以最小化审核，测试两种常见计算机视觉任务的性能指标，并表明该方法比其他评估协议更具稳健性，并能节省显着的人工标注工作量。

Jul, 2018

比平均水平更好：自然语言处理系统的成对评估

本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷，并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry（BT）模型可以更好的反映模型之间的差异。最后，研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。

Oct, 2021

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。

May, 2024