比平均水平更好:自然语言处理系统的成对评估
该研究提出一种新的基于社会选择理论的系统排名方法,用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健,有别于简单的平均聚合,可为实际应用提供最佳的系统选择。
Feb, 2022
使用 Pairwise-preference Search(PAIRS)方法,通过对比评估候选文本,解决了大型语言模型(LLMs)在评估中出现的偏差与不连贯问题。
Mar, 2024
合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性,但是以八个自然语言竞赛为案例进行了说明,涉及分类和回归问题。所提出的方法具有多种优势,包括与修正机制的即插即用比较和置信区间的包含。此外,我们引入了一些指标,使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。
Mar, 2024
本研究提出了一种针对 NLP 研究中系统得分缺失的基准评估方法,使用 Borda 计数方法聚合使用兼容的局部排名方法填补的缺失数据,并引入一个包含超过 1.31 亿个得分的扩展基准评估,验证了该方法在处理实际情况中缺失系统评估的有效性。
May, 2023
提出了一种基于对话响应之间的比较评估的对话评估度量方法 PairEval,该度量方法比基准度量方法更具鲁棒性,并且与人类判断的相关性更高。
Apr, 2024
通过比较点对和逐点评估方法,研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性,而逐点评估器在判断错误时仍能准确识别低质量输出的缺点,这表明大型语言模型在点对评估设置中更受其偏见的影响;为了缓解这个问题,该研究提出了一种将逐点推理方法整合到点对评估中的混合方法,实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性,并在正常样本上保持了准确性。
Jun, 2024
通过理论分析和 Monte Carlo 模拟,对传统评估方法中存在的偏见进行了讨论,提出了一些不受偏见影响的替代评估方法,如 Cohen Kappa,并进行了实证评估。
Apr, 2015
本文研究了模型性能评估方法的可靠性问题,并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。
Mar, 2018
在自然语言处理 (NLP) 中,Elo 等级系统被用于评估大型语言模型 (LLMs) 的准确性和可靠性,然而其在评估具有恒定技能水平,如 LLMs 等实体方面的适用性仍然相对未被探索。本文研究了评估方法应遵循的两个基本公理:可靠性和传递性,并通过广泛的 Elo 行为评估,阐述了个体 Elo 计算的波动性,并深入探讨了 Elo 等级系统超参数变化的影响。我们发现这些公理并不总是得到满足,提出了当前 LLMs 的比较评估的可靠性问题。如果当前使用 Elo 得分来替代昂贵的 LLMs 比较,确保排名尽可能健壮是至关重要的。我们的研究结果根据这些公理为改进 LLMs 评估方法提供了具体指导,这意味着需要重新评估现有的比较方法。
Nov, 2023