基于多准则比较的知识引导机器学习方法的推进

AAAIMar, 2024

基于多准则比较的知识引导机器学习方法的推进

Multi-Criteria Comparison as a Method of Advancing Knowledge-Guided Machine Learning

Jason L. Harman, Jaelle Scheuerman

TL;DR描述了一种有应用广泛的模型评估方法，能够根据核心科学原理和更实用的结果评估人工智能 / 机器学习模型。该方法通过心理学和决策科学的预测竞赛产生，对各种类型和结构的候选模型进行了多个科学、理论和实际标准的综合评估，使用计算社会选择领域的投票规则进行标准分数的排序评估，可以对不同测量和模型类型进行整体评价。还讨论了其他优势和应用。

Abstract

This paper describes a generalizable model evaluation method that can be adapted to evaluate ai/ml models across multiple criteria including core

model evaluation method ai/ml models scientific principles practical outcomes voting rules

发现论文，激发创造

机器学习中的模型评估、模型选择和算法选择

本文综述了机器学习中模型评估、模型选择和算法选择等三个子任务的不同技术，并讨论了每种技术的主要优缺点，给出了推荐实践建议。重点介绍了常见的模型评估和选择技术，如保留集方法和交叉验证技术，并给出了实用技巧。同时提出了多种算法比较策略，包括 5x2 交叉验证和嵌套交叉验证等，推荐在小数据集情况下使用。

Nov, 2018

基于数据驱动的多标准排序与时间标准的偏好学习方法

本研究提出了新颖的偏好学习方法，以解决存在时间标准的多准则排序问题。这项研究介绍了一种凸二次规划模型和一个集成学习算法，同时还引入了一种新颖的单调循环神经网络 (mRNN)，并对提出的模型进行了综合评估。研究结果表明，与多种基准方法相比，所提出的模型实现了显著的性能改进。

Sep, 2023

动态生成多样性准则以改善逐点 LLM 排名器

通过多角度评估的一组标准生成排名得分的排序器显著提高了点对点大型语言模型排名器的性能。

Apr, 2024

投票与排序：基于社会选择理论的基准评估修订

该论文提出了 Vote'n'Rank 框架用于在多任务基准测试中排名系统，并通过该方法在不同领域中比较多个系统的表现，从而得出结论和新的 insights。

Oct, 2022

方向性的多元排序

本文提出了一种针对多方面排名问题的方向性多方面排名准则，并基于概率多元张量分解模型推导了完整的解决方案，实验证实了该方案在大型数据集上的有效性。

Jun, 2020

更公平、更准确，但为谁而做？

该论文介绍了一种比较不同风险评估模型公平性的框架，特别关注与种族和性别的不平等问题，以预测再犯率和贷款为例进行实验。

Jun, 2017

多标签分类方法的综合比较研究

这项研究对各个领域的大量数据集使用 20 种不同的评估方法对 26 种不同的多标签分类方法进行了全面的实证研究，发现 RFPCT，RFDTBR，ECCJ48，EBRJ48 和 AdaBoostMH 是效果最好的方法，希望今后引入新方法时，应该将其与不同的 MLC 方法的子集进行比较，以便更好地评估其性能表现。

Feb, 2021

AutoxgboostMC 的多目标自动机器学习

提出了一种多准则的 AutoML 系统，优化了用户定义的辅助标准，以引导搜索达到最佳的机器学习流程，以此来满足人工智能应用中不同的需求。

Aug, 2019

解释方法质量评估标准的元调查

通过文献调研和元分析，我们建议采用适当的信任作为衡量主观评价标准结果的标准，并提出了一个解释质量方面的模型，其中类似定义的标准被分组，并与三个识别出的质量方面相关联：模型、解释和用户。最后我们提出了一个包含四个常用标准（群）的模型，涵盖了解释质量的所有方面：性能、适当的信任、解释满意度和忠实度。该模型可以作为比较评估的图表，以创建更具可推广性的解释质量研究。

Mar, 2022

机器学习算法的多维能力诊断

本文提出了一个基于心理测量理论的评估框架 Camilla，在多项技能上协作地度量每个机器学习算法的多方面的能力，并在公共数据集上证明了其比现有方法更具有可靠性、排名一致性和稳定性。

Jul, 2023