任务 - 不可知数据估值基础
本文介绍了一种新的数据估值框架,可以在不确定具体学习算法的情况下对数据进行估值,并提出了基于 Wasserstein 距离和敏感性分析的方法来估值,可以检测低质量的数据并在性能方面显著提高。
Apr, 2023
本文介绍了一个易于使用的、统一的基准框架 OpenDataVal,其支持多种数据估价算法的应用和比较,同时提出了四个下游机器学习任务以评估数据价值的质量,并且使用 OpenDataVal 进行基准测试,量化和比较了最先进的数据估价方法的有效性。
Jun, 2023
通过相似度匹配的角度,提出了 Generative Model Valuator (GMValuator) 来作为深度生成模型的第一种模型无关方法,为生成任务提供数据估值策略。此方法是第一种提供无需训练即可进行数据估值的深度生成模型的策略。
Apr, 2023
我们提出了一种名为神经动态数据估值(NDDV)的新型数据估值方法,通过最优控制的视角根据数据最优控制状态的敏感性准确地确定数据估值,同时实施数据重新加权策略以捕捉数据点的独特特征,从而确保公平性,并显著提高计算效率。
Apr, 2024
本文提出了一种基于数据的分数,称为复杂度差距分数,它是一个训练无关的数据估价分数,可以量化个体实例在两层过度参数化神经网络的泛化中的影响,并用于分析数据集和诊断训练动态。
Jan, 2023
去中心化数据市场在机器学习中提供了更公平的数据获取形式。然而,要实现实际的市场,需要研发高效的卖家选择技术。我们提出并基准测试了联邦数据度量方法,以帮助数据买家找到拥有相关和多样化数据集的卖家。多样性和相关性度量使买家能够在不需要中间代理人和训练任务相关模型的情况下进行相对比较。
Jun, 2024
FADO 是一个数据评估框架,旨在将公平性考虑到与机器学习相关的任务(如数据预处理、探索性数据分析、主动学习)中,采用基于熵的数据估值指标来最大化性能和公平性,可作为不公平性缓解预处理技术的基础,对于质量较好的数据具有重要意义。
Mar, 2023
本文研究了以差分隐私为视角的私人数据市场。我们提出了一个理论框架,通过设计拍卖机制,为数据所有者提供合理的隐私损失补偿,并与数据分析师的准确性和预算要求达成平衡。同时,我们证明了在这种场景下,经典的维克里竞拍具有较高的优化效果。
Nov, 2010
数据估值与个人数据所有权、数据保护法规、DeRDaVa 和风险厌恶 / 寻求模型所有者等相关,我们提出了一种数据估值框架 DeRDaVa,并将其推广到 Risk-DeRDaVa,以适应风险厌恶 / 寻求模型所有者的需求,并进行了实证研究。
Dec, 2023