投票与排序:基于社会选择理论的基准评估修订
该研究提出一种新的基于社会选择理论的系统排名方法,用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健,有别于简单的平均聚合,可为实际应用提供最佳的系统选择。
Feb, 2022
通过将任务视为单独的投票者,使用序数排名或成对比较来产生整体评估,我们认为许多一般的评估问题都可以通过投票理论来解决。通过将聚合器视为社会福利函数,我们能够利用社会选择理论的数百年研究成果,得出具有公理基础的原则性评估框架。我们应用这种 “作为评估的投票”(VasE)框架在多个设置中,包括强化学习、大规模语言模型和人类。实践中,我们观察到 VasE 比流行的评估框架(Elo 和 Nash 平均)更稳健,在评估数据中发现仅通过分数无法明确的属性,以及在复杂的七人游戏中比 Elo 更好地预测结果。我们确定了一个特定的方法 —— 最大彩票,它满足与评估相关的重要一致性属性,计算效率高(与评估数据的规模多项式相关),并且识别出博弈理论循环。
Dec, 2023
描述了一种有应用广泛的模型评估方法,能够根据核心科学原理和更实用的结果评估人工智能 / 机器学习模型。该方法通过心理学和决策科学的预测竞赛产生,对各种类型和结构的候选模型进行了多个科学、理论和实际标准的综合评估,使用计算社会选择领域的投票规则进行标准分数的排序评估,可以对不同测量和模型类型进行整体评价。还讨论了其他优势和应用。
Mar, 2024
提出了一种新的排名方案,利用基于鲁棒的自助法假设检验程序对多个单目标优化问题的算法进行排名,并考虑了算法的性能改进的大小和实际相关性,与传统假设检验相比,提出的排名方案具有可比性和许多额外的好处。
May, 2024
研究对同行评审系统的评估方法进行了分析,通过实证风险最小化的方法,提出基于 L (p,q) 损失函数的聚合映射机制,解决了评估者对不同评估标准的不同权重问题,并探究了该方法中策略防御的问题以及提出了一种连续算法模型。
Nov, 2022
本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷,并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry(BT)模型可以更好的反映模型之间的差异。最后,研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。
Oct, 2021
本文提出一种使用单可转移投票机制对用户进行 Top-K 推荐的方法,以获取更多用户的偏好并减少少数用户对超级活跃推广的物品的影响。通过两个真实世界数据集的实验和与最先进技术的比较,我们显示这种方法提供了最大的用户满意度。
Nov, 2018
本文从统计决策论的视角出发,提出了基于决策规则的社会选择机制,比较了 Bayesian 估计器、Mallows 模型、Condorcet 模型和 Kemeny 规则等各种类型的机制,并探讨了其规范性能、计算复杂度和渐近行为等方面的性质。其中,对于 Condorcet 模型,本文证明了 Bayesian 估计器满足匿名性、中立性和单调性等期望性能,能够在多项式时间内计算,并在一定条件下与其他两种决策规则渐近不同。
Oct, 2014
研究揭示排序同行评分可用作大规模在线开放课程 (MOOC) 的学生评估的高度有效和可扩展解决方案,通过使用一种 Borda-like 聚合方法,在分布过程中使用简单的方法分配任务,并且即使学生具有不完美的评分能力,该方法也非常稳健。
Nov, 2014