元求解器方法的评估
分类系统在无数篇论文中进行评估。然而,我们发现评估实践通常是模糊的。经常情况下,指标选择是没有依据的,模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发,对常用的评估指标进行分析,考虑到论文中所表达的期望。通过对度量选择的全面理解,我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示,度量选择通常缺乏令人信服的论证,这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导,以实现更有见地和透明的度量选择,推动有意义的评估。
Apr, 2024
本文提出第一个对组合优化求解器的实用鲁棒性度量方法,并针对 14 个算法和 CO 问题进行了广泛的实验,在给定时间限制下,发现目前的最先进算法(如 Gurobi)在指定的难例上的性能下降了超过 20%,使人们对组合优化求解器的鲁棒性产生担忧。
Dec, 2021
本研究分析了各种性能指标及其分类方法,提出了 “主要指标、扩展指标、组合指标、度量组合集合” 四种性能指标类型,并确定了影响主要指标结构和特性的三个关键组成部分:点距离确定方法、规范化方法和数据集上点距离聚合方法.
Sep, 2018
本文介绍了一个解释神经网络预测的特征归因方法,提出了一个问题:为什么我们不使用解释器(例如 LIME),而是基于解决度量来优化解释,如果度量值代表了解释质量呢?我们实现了解释器,并发布了 Python solvex 包,可用于文本、图像和表格等领域的模型。
May, 2022
本文详细介绍了推荐系统的评估方法,包括内容推荐和协同过滤机制的相似度指标,候选生成度量,预测指标,排名指标以及与经济目标相关的商业指标。同时强调了这些指标的上下文应用和相互依赖,提出了一种选择和解释这些指标的框架,以促进推荐系统的改进和商业目标的实现。
Dec, 2023
本文介绍了基于组合分析方法的 MiniZinc Challenges 和 SAT competitions 比赛的结果,并提出了新的关于性能分析的见解。
May, 2022
该研究提出一种新的基于社会选择理论的系统排名方法,用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健,有别于简单的平均聚合,可为实际应用提供最佳的系统选择。
Feb, 2022
我们提出一个概念框架,统一了不同结构预测任务(例如事件和关系提取,句法和语义解析)的各种评估指标。通过将这些任务的输出表示为某些数据类型的对象,并通过匹配共同子结构,可能跟随标准化,推导出指标。我们演示了如何用这个框架简洁地表达许多任务的常用指标,并显示可以自然地基于输出结构自下而上地推导出新的指标。我们发布了一个库,使得可以派生出新的指标。最后,我们考虑了任务的特定特性如何推动指标设计决策,并建议根据这些动机可能修改现有的指标。
Oct, 2023
提出了一种新的定量评估指标 QualEval,用于改进大型语言模型的定量测量方法。该方法通过使用动态优化求解器生成人类可读的洞察力,加速模型改进,并成功增加了模型开发的速度,成为一种数据科学家工具。
Nov, 2023