数据估值是否可学习和可解释的?
本研究提出一种考虑数据公正价值的方法,通过估算数据 Shapley 值来解决在监督学习中评估数据价值的困难,并且发现该方法优于其他流行的评估方法,可以有效提高预测器的性能。
Apr, 2019
数据评估在近年来引起了越来越多的关注,鉴于高质量数据在各种应用中的重要作用,特别是在机器学习任务中。本文探讨了全局和局部价值分布的特征,提出了一种基于所探测到的分布特征的新的数据评估方法,并提出了一种解决动态数据评估问题的新路径,通过制定一个整合全局和局部价值分布信息的优化问题。广泛的实验表明了我们提出方法的有效性和高效性,验证了全局和局部价值分布在数据评估中的重要潜力。
May, 2024
我们介绍了一种高效数据估值框架 EcoVal,通过确定类似数据点的群集的价值,并在其成员间传播,以快速而实用的方式估计机器学习模型的数据价值。我们将模型的性能建模为一个生产函数,通过估计每个数据的内在和外在价值来确定整体数据价值。我们通过提供正式证明和阐明加速性能的原理和机制,展示了该方法在实际应用中对于分布内和样本外数据的有效性。该研究解决了机器学习模型中规模化高效数据估值的核心挑战之一。
Feb, 2024
本文介绍了一种新的数据估值框架,可以在不确定具体学习算法的情况下对数据进行估值,并提出了基于 Wasserstein 距离和敏感性分析的方法来估值,可以检测低质量的数据并在性能方面显著提高。
Apr, 2023
提出了一种基于强化学习的数据估值元学习框架,可以同时学习数据价值和目标任务预测模型,能够在不同类型的数据集和应用场景中,显著提高数据价值估计精度,并在检测错误样本、领域自适应和稳健学习等方面比现有方法表现更出色。
Sep, 2019
通过利用机器学习问题的结构性质,我们提出了一种更高效的近似数据 Shapley 值的方法,此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明,这种方法在保持数据的近似价值和排名的同时,提高了近似速度最高可达 9.9 倍,并且在使用小的子集进行精确评估时,对预训练网络的效率更高。
Nov, 2023
该研究提出一种计算在聚合的数据矩阵中删除片段的对立假设的方法,并进一步提出了二维 Shapley,这是一种理论框架,旨在评估碎片化的数据源,其在碎片化数据上满足某些有吸引力的公理。 2D-Shapley 赋予了一系列新的用例,例如选择有用的数据片段,提供逐个样本的数据值的解释以及精细的数据问题诊断。
Jun, 2023
提出一个新的统计框架 —— 分布 Shapley,其定义了基于潜在数据分布的点的价值,解决了数据 Shapley 框架的限制,并使用该框架开发了一个新的算法,运行速度比计算(非分布式)数据 Shapley 值的最先进算法快两个数量级,对各种数据集进行了应用并证明了它在数据市场环境中的实用性。
Feb, 2020
本文提出了一种基于数据的分数,称为复杂度差距分数,它是一个训练无关的数据估价分数,可以量化个体实例在两层过度参数化神经网络的泛化中的影响,并用于分析数据集和诊断训练动态。
Jan, 2023