利用估计目标框架提高人工智能 / 机器学习评估的有效性和实用性

Jun, 2024

利用估计目标框架提高人工智能 / 机器学习评估的有效性和实用性

Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework

Olivier Binette, Jerome P. Reiter

TL;DR使用改编自国际临床试验指南的估计框架，提出一种改进评估方法的方法，用于评估 AI 或机器学习模型的有效性和实用性，以揭示其潜在问题、原因和解决方案。

Abstract

Commonly, ai or machine learning (ML) models are evaluated on benchmark datasets. This practice supports innovative methodological research, but benchmark performance can be poorly correlated with performance in

ai machine learning estimands framework evaluation methodologies validity

发现论文，激发创造

一种高效的模型评估框架：分层、抽样和估计

模型性能评估是机器学习和计算机视觉中的关键而昂贵的任务。在本文中，我们提出了一种模型评估的统计框架，包括分层、抽样和估计组成部分。我们的实验表明，通过基于准确的模型性能预测进行 k-means 聚类的分层方法能够提供比传统的简单随机抽样更为精确的准确度估计。

Jun, 2024

立足于 FURM 框架之上 —— 评估医疗系统中公平、有用和可靠的 AI 模型

使用人工智能（AI）指导患者护理或操作过程的影响是 AI 模型输出、基于该输出的决策制定协议以及参与方采取必要后续行动的相互作用。斯坦福医疗保健的数据科学团队开发了一种 “公平、有用和可靠 AI 模型（FURM）” 的机制，通过进行伦理审查来识别潜在的价值不匹配，通过模拟估计有用性，通过财务预测评估可持续性，以及通过分析来确定 IT 的可行性，设计部署策略，并推荐前瞻性的监测和评估计划，从而实现在部署之前估计其影响效果，以及在实时研究其影响效果。我们报道了对六个 AI 模型指导解决方案进行的 FURM 评估，以评估其潜在采用性的过程，涵盖临床和操作设置，每年可能影响数十个到数万个患者。我们描述了评估过程，总结了这六个评估，并分享了我们的框架，以使他人能够进行类似的评估。在我们评估的六个方案中，有两个已进入规划和实施阶段。我们的创新贡献，包括模拟估计的有用性、量化可持续性的财务预测以及进行伦理评估的过程，以及底层方法和开源工具，可供其他医疗保健系统进行可行的候选 AI 解决方案评估。

Feb, 2024

评估软件项目估算中的预测系统

提出一个新的框架来进行预测系统的评估，并检验了现有的统计指标的有效性，呈现出可靠的实验结论。

Jan, 2021

评估可信 AI 医学数据质量的 METRIC 框架：一项系统综述

通过系统评估医学数据集合，我们提出了 METRIC 框架，该框架包含了 15 个数据质量意识维度，帮助减少偏见、增加稳健性、提高可解释性，从而为医学中可信赖的人工智能奠定了基础。

Feb, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

ALT-MAS: 一种用于机器学习算法主动测试的数据高效框架

本论文介绍了一种基于贝叶斯神经网络的框架，可通过只使用少量标记测试数据有效地测试机器学习模型的正确性，该框架利用数据扩充方法训练 BNN 以实现高精度，同时采用理论信息为基础的采样策略来采样数据点以实现准确的度量估计，并通过实验表明我们的方法比现有基准显着地提高了指标估计的准确性。

Apr, 2021

因果推断分析性能评估基准框架

本文介绍了一个综合框架，用于对评估算法进行基准测试，它包括用于预测的未标记数据、用于验证的标记数据以及使用已建立和新颖指标进行算法预测的自动评估的代码，并解决了缩放和数据屏蔽问题。

Feb, 2018

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

基于高效影响函数的统计学习揭秘

本文介绍了如何利用 efficient influence function 来构建基于统计 / 机器学习的 estimators，并讨论了这些 estimators 表现良好的前提条件。

Jul, 2021

AI 偏见探索的标准化方向

创建公平的 AI 系统是一个复杂的问题，涉及评估上下文相关的偏见问题。本文提出了一个数学框架，将偏见的文献度量指标化为构建模块，从而促进涵盖广泛公平问题的新组合，我们还提供了一个名为 FairBench 的 Python 库，用于有系统且可扩展地探索潜在的偏见问题。

May, 2024