重新评估评估

NIPSJun, 2018

Re-evaluating Evaluation

David Balduzzi, Karl Tuyls, Julien Perolat, Thore Graepel

TL;DR本文介绍了一种叫作 Nash 平均的评估方法，能够自动适应评估数据中的冗余信息，从而避免了采用简单任务或弱智能体造成的结果偏差，实现了最大程度的评估包容性。

Abstract

Progress in machine learning is measured by careful evaluation on problems of outstanding common interest. However, the proliferation of benchmark suites and environments, adversarial attacks, and other complicat

machine learning benchmark suites nash averaging evaluation model redundancies

发现论文，激发创造

比平均水平更好：自然语言处理系统的成对评估

本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷，并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry（BT）模型可以更好的反映模型之间的差异。最后，研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。

Oct, 2021

投票与排序：基于社会选择理论的基准评估修订

该论文提出了 Vote'n'Rank 框架用于在多任务基准测试中排名系统，并通过该方法在不同领域中比较多个系统的表现，从而得出结论和新的 insights。

Oct, 2022

最佳系统是什么？自然语言处理基准测试的新视角

该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Feb, 2022

最优模型平均化：走向个性化协作学习

本文研究了加权模型平均对任意标量均值估计问题的影响，发现加权平均模型可以减少局部模型的期望平方误差，并量化了加权模型平均的（可能为负的）益处。这项研究正式确定了一种量化协作学习个性化价值的方法，并为未来多元参数估计和基于一系列假设的检验研究提供了框架。

Oct, 2021

运用社会选择理论评估代理人

通过将任务视为单独的投票者，使用序数排名或成对比较来产生整体评估，我们认为许多一般的评估问题都可以通过投票理论来解决。通过将聚合器视为社会福利函数，我们能够利用社会选择理论的数百年研究成果，得出具有公理基础的原则性评估框架。我们应用这种 “作为评估的投票”（VasE）框架在多个设置中，包括强化学习、大规模语言模型和人类。实践中，我们观察到 VasE 比流行的评估框架（Elo 和 Nash 平均）更稳健，在评估数据中发现仅通过分数无法明确的属性，以及在复杂的七人游戏中比 Elo 更好地预测结果。我们确定了一个特定的方法 —— 最大彩票，它满足与评估相关的重要一致性属性，计算效率高（与评估数据的规模多项式相关），并且识别出博弈理论循环。

Dec, 2023

严格的代理评估：揭示灾难性失败的对抗方法

本文提出了一种基于对抗评估的学习系统评估方法，旨在解决现有强化学习代理评估方法可能会缺失失败情况的问题，通过对抗选择情况进行评估，可大幅缩短评估时间，实验结果表明该方法在可靠性和效率上都有极大的提升。

Dec, 2018

自然语言评估中去偏置自动度量的代价

本文提出使用控制变量方法，结合自动评价指标与人工评价来获取代价较低的无偏估计，在对文摘和开放式问题回答进行评估时，可以实现 7-13% 的代价降低，同时强调了自动评价指标和提示方式是进一步降低代价的关键瓶颈。

Jul, 2018

如何改进自然语言理解基准测试？

该论文提出了评估自然语言理解任务的四个标准，并指出目前大多数现有标准都无法满足这些标准，而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统，需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。

Apr, 2021

基于人口统计学的重复石头剪刀布作为多智能体强化学习基准

提出了一个基于 Rock, Paper, Scissors 游戏重复比赛及 43 个竞赛选手的基准测试，用于多智能体学习的基准测试，通过度量平均收益和可利用性来评估智能体的质量，并展示了多种机器学习方法的学习能力和推广能力，但最终输给了表现最好的机器人，为多智能体学习研究提供了机会。

Mar, 2023

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。

May, 2024