数据模型:从训练数据中预测预测
利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集,避免主观标准,并明确了学习过程如何利用训练数据进行目标任务的预测,从而极大地提高了语言模型的性能。
Jan, 2024
本文介绍了数据点对于模型预测的影响函数以及一种线性回归方法 datamodels 来预测训练点对测试数据输出的影响,并提供了更好的理论理解,主要工具是谐波分析和噪声稳定性。
Oct, 2022
本文旨在通过记录模型与数据的交互过程,以改善未来爬取的 Internet 数据集的信息稳定性。我们发现模型输出表现为源自训练集的样本具有一致性校准时,偏见放大的程度与模型预测的性别偏差等测试时偏差统计显著相关,如果同时在三个条件预测场景中使用,能更好的校准和稳固反馈系统。
Sep, 2022
使用 Data Debiasing with Datamodels (D3M) 方法,在不需要训练组注释或额外的超参数调整的情况下,通过隔离和移除导致模型在少数群体上失败的特定训练样本,可以高效地训练去偏置分类器。
Jun, 2024
当多个数据点有明确的判断结果的模型存在时,大多数模型可能表现出一种关系,即如果它们正确判断了一个目标,它们也会正确判断另一个目标。相反,如果大多数模型错误地判断了一个目标,它们也可能错误地判断另一个目标。我们提出了一种可视化目标之间层级关系的方法,这一信息有望对模型改进有益。
Nov, 2023
本研究采用基于个例角度的视角,引入了计算预测输入的困难程度的度量 -(有效的)预测深度,发现了一些有意为之而意外的、简单的关系,进一步将困难例子分为三个可解释的组,并展示了这种理解如何提高了预测准确率,揭示了文献中一些分开探讨的现象的连贯视图。
Jun, 2021
这篇论文从教育数据挖掘的角度描述了面临的挑战、方法和思考,提出了基于模型预测的决策规则和最优决策规则的重要性,并探讨了 Kaggle 系统等基本结果。
May, 2021
使用 Data Maps 工具基于模型的训练动态量化和诊断数据集。实验结果表明,数据地图揭示了数据集中的模糊、易于学习和难以学习的区域,这些发现对于构建健壮的模型和提高分布外泛化能力非常重要。
Sep, 2020