元求解器方法的评估

Feb, 2022

On the evaluation of (meta-)solver approaches

Roberto Amadini, Maurizio Gabbrielli, Tong Liu, Jacopo Mauro

TL;DR本文概述了用于评估（元）求解器的不同性能度量标准，包括衡量元求解器表现和虚拟最佳表现的具体评估度量标准，并强调它们的优缺点。

Abstract

meta-solver approaches exploits a number of individual solvers to potentially build a better solver. To assess the performance of meta-solvers, one can simply adopt the metrics typically used for →

meta-solver approaches performance metrics individual solvers evaluation virtual best performance

发现论文，激发创造

分类评估指标的深入研究及对常见评估实践的批判性反思

分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Apr, 2024

图上组合优化求解器稳健性评估的通用框架

本文提出第一个对组合优化求解器的实用鲁棒性度量方法，并针对 14 个算法和 CO 问题进行了广泛的实验，在给定时间限制下，发现目前的最先进算法（如 Gurobi）在指定的难例上的性能下降了超过 20％，使人们对组合优化求解器的鲁棒性产生担忧。

Dec, 2021

机器学习回归、预测和预测中的性能度量（误差度量）：属性和分类

本研究分析了各种性能指标及其分类方法，提出了 “主要指标、扩展指标、组合指标、度量组合集合” 四种性能指标类型，并确定了影响主要指标结构和特性的三个关键组成部分：点距离确定方法、规范化方法和数据集上点距离聚合方法.

Sep, 2018

可解释性评估指标的可求解性

本文介绍了一个解释神经网络预测的特征归因方法，提出了一个问题：为什么我们不使用解释器（例如 LIME），而是基于解决度量来优化解释，如果度量值代表了解释质量呢？我们实现了解释器，并发布了 Python solvex 包，可用于文本、图像和表格等领域的模型。

May, 2022

推荐系统评估技术综述

本文详细介绍了推荐系统的评估方法，包括内容推荐和协同过滤机制的相似度指标，候选生成度量，预测指标，排名指标以及与经济目标相关的商业指标。同时强调了这些指标的上下文应用和相互依赖，提出了一种选择和解释这些指标的框架，以促进推荐系统的改进和商业目标的实现。

Dec, 2023

一种基于组合投资的竞争结果分析方法

本文介绍了基于组合分析方法的 MiniZinc Challenges 和 SAT competitions 比赛的结果，并提出了新的关于性能分析的见解。

May, 2022

最佳系统是什么？自然语言处理基准测试的新视角

该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Feb, 2022

在线度量算法的混合预测

本文阐述了一种基于多种算法或预测器的学习增强在线算法技术，通过针对在线问题的分析，设计出与动态组合相竞争的算法，能够在多种预测器之间切换，具有灵活性和实用性。

Apr, 2023

结构化预测的评估度量的统一视角

我们提出一个概念框架，统一了不同结构预测任务（例如事件和关系提取，句法和语义解析）的各种评估指标。通过将这些任务的输出表示为某些数据类型的对象，并通过匹配共同子结构，可能跟随标准化，推导出指标。我们演示了如何用这个框架简洁地表达许多任务的常用指标，并显示可以自然地基于输出结构自下而上地推导出新的指标。我们发布了一个库，使得可以派生出新的指标。最后，我们考虑了任务的特定特性如何推动指标设计决策，并建议根据这些动机可能修改现有的指标。

Oct, 2023

QualEval: 模型改进的定性评估

提出了一种新的定量评估指标 QualEval，用于改进大型语言模型的定量测量方法。该方法通过使用动态优化求解器生成人类可读的洞察力，加速模型改进，并成功增加了模型开发的速度，成为一种数据科学家工具。

Nov, 2023