Dec, 2023

运用社会选择理论评估代理人

TL;DR通过将任务视为单独的投票者,使用序数排名或成对比较来产生整体评估,我们认为许多一般的评估问题都可以通过投票理论来解决。通过将聚合器视为社会福利函数,我们能够利用社会选择理论的数百年研究成果,得出具有公理基础的原则性评估框架。我们应用这种 “作为评估的投票”(VasE)框架在多个设置中,包括强化学习、大规模语言模型和人类。实践中,我们观察到 VasE 比流行的评估框架(Elo 和 Nash 平均)更稳健,在评估数据中发现仅通过分数无法明确的属性,以及在复杂的七人游戏中比 Elo 更好地预测结果。我们确定了一个特定的方法 —— 最大彩票,它满足与评估相关的重要一致性属性,计算效率高(与评估数据的规模多项式相关),并且识别出博弈理论循环。