数据模型：从训练数据中预测预测

Feb, 2022

数据模型：从训练数据中预测预测

Datamodels: Predicting Predictions from Training Data

Andrew Ilyas, Sung Min Park, Logan Engstrom, Guillaume Leclerc, Aleksander Madry

TL;DR提出一种数据建模框架，可以分析训练数据集对模型行为的影响，通过建立参数化函数，预测数据子集对于训练后的模型的影响并导出各种机器学习应用。

Abstract

We present a conceptual framework, datamodeling, for analyzing the behavior of a model class in terms of the training data. For any fixed "target" example $x$, training set $S$, and →

datamodeling training data learning algorithm predictive modeling machine learning applications

发现论文，激发创造

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

通过谐波分析理解影响函数和数据模型

本文介绍了数据点对于模型预测的影响函数以及一种线性回归方法 datamodels 来预测训练点对测试数据输出的影响，并提供了更好的理论理解，主要工具是谐波分析和噪声稳定性。

Oct, 2022

利用决策建模挽救数据科学

本文提倡数据科学领域采用 AI 中的贝叶斯方法以建立一个新的应用研究方案，其中包含六个决策质量原则，称为 “决策建模”，并以 ROC 曲线和效用模型为例。

Jun, 2023

数据反馈环路：基于模型驱动的数据集偏差放大

本文旨在通过记录模型与数据的交互过程，以改善未来爬取的 Internet 数据集的信息稳定性。我们发现模型输出表现为源自训练集的样本具有一致性校准时，偏见放大的程度与模型预测的性别偏差等测试时偏差统计显著相关，如果同时在三个条件预测场景中使用，能更好的校准和稳固反馈系统。

Sep, 2022

使用 Datamodels（D3M）进行数据去偏：通过数据选择提高子群体鲁棒性

使用 Data Debiasing with Datamodels (D3M) 方法，在不需要训练组注释或额外的超参数调整的情况下，通过隔离和移除导致模型在少数群体上失败的特定训练样本，可以高效地训练去偏置分类器。

Jun, 2024

机器学习中数据的层次表示

当多个数据点有明确的判断结果的模型存在时，大多数模型可能表现出一种关系，即如果它们正确判断了一个目标，它们也会正确判断另一个目标。相反，如果大多数模型错误地判断了一个目标，它们也可能错误地判断另一个目标。我们提出了一种可视化目标之间层级关系的方法，这一信息有望对模型改进有益。

Nov, 2023

从示例难度的角度看深度学习

本研究采用基于个例角度的视角，引入了计算预测输入的困难程度的度量 -（有效的）预测深度，发现了一些有意为之而意外的、简单的关系，进一步将困难例子分为三个可解释的组，并展示了这种理解如何提高了预测准确率，揭示了文献中一些分开探讨的现象的连贯视图。

Jun, 2021

使用逻辑回归建模 EdNet 数据集

这篇论文从教育数据挖掘的角度描述了面临的挑战、方法和思考，提出了基于模型预测的决策规则和最优决策规则的重要性，并探讨了 Kaggle 系统等基本结果。

May, 2021

数据集制图：利用训练动态映射和诊断数据集

使用 Data Maps 工具基于模型的训练动态量化和诊断数据集。实验结果表明，数据地图揭示了数据集中的模糊、易于学习和难以学习的区域，这些发现对于构建健壮的模型和提高分布外泛化能力非常重要。

Sep, 2020

通过逐层相关性传递解释复杂机器学习模型的预测

本文介绍一种基于输入变量对深度神经网络分类决策进行分解的技术，以提高其透明度和可解释性。

Nov, 2016