比平均水平更好：自然语言处理系统的成对评估

ACLOct, 2021

比平均水平更好：自然语言处理系统的成对评估

Better than Average: Paired Evaluation of NLP Systems

Maxime Peyrard, Wei Zhao, Steffen Eger, Robert West

TL;DR本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷，并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry（BT）模型可以更好的反映模型之间的差异。最后，研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。

Abstract

evaluation in nlp is usually done by comparing the scores of competing systems independently averaged over a common set of test instances. In this work, we question the use of averages for aggregating

evaluation nlp pairwise comparisons aggregation methods bt model

发现论文，激发创造

最佳系统是什么？自然语言处理基准测试的新视角

该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Feb, 2022

重新评估评估

本文介绍了一种叫作 Nash 平均的评估方法，能够自动适应评估数据中的冗余信息，从而避免了采用简单任务或弱智能体造成的结果偏差，实现了最大程度的评估包容性。

Jun, 2018

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

构建更稳健的 NLP 系统评估：在基准测试中处理缺失得分

本研究提出了一种针对 NLP 研究中系统得分缺失的基准评估方法，使用 Borda 计数方法聚合使用兼容的局部排名方法填补的缺失数据，并引入一个包含超过 1.31 亿个得分的扩展基准评估，验证了该方法在处理实际情况中缺失系统评估的有效性。

May, 2023

PairEval：使用配对比较进行开放域对话评价

提出了一种基于对话响应之间的比较评估的对话评估度量方法 PairEval，该度量方法比基准度量方法更具鲁棒性，并且与人类判断的相关性更高。

Apr, 2024

PRePair: 增强逐点推理的鲁棒指令遵循评估

通过比较点对和逐点评估方法，研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性，而逐点评估器在判断错误时仍能准确识别低质量输出的缺点，这表明大型语言模型在点对评估设置中更受其偏见的影响；为了缓解这个问题，该研究提出了一种将逐点推理方法整合到点对评估中的混合方法，实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性，并在正常样本上保持了准确性。

Jun, 2024

蒙特卡罗研究的评估

通过理论分析和 Monte Carlo 模拟，对传统评估方法中存在的偏见进行了讨论，提出了一些不受偏见影响的替代评估方法，如 Cohen Kappa，并进行了实证评估。

Apr, 2015

比较单个性能得分并不能得出关于机器学习方法的结论

本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Mar, 2018

Elo 揭示：语言模型评估的稳健性和最佳实践

在自然语言处理 (NLP) 中，Elo 等级系统被用于评估大型语言模型 (LLMs) 的准确性和可靠性，然而其在评估具有恒定技能水平，如 LLMs 等实体方面的适用性仍然相对未被探索。本文研究了评估方法应遵循的两个基本公理：可靠性和传递性，并通过广泛的 Elo 行为评估，阐述了个体 Elo 计算的波动性，并深入探讨了 Elo 等级系统超参数变化的影响。我们发现这些公理并不总是得到满足，提出了当前 LLMs 的比较评估的可靠性问题。如果当前使用 Elo 得分来替代昂贵的 LLMs 比较，确保排名尽可能健壮是至关重要的。我们的研究结果根据这些公理为改进 LLMs 评估方法提供了具体指导，这意味着需要重新评估现有的比较方法。

Nov, 2023