数据估值是否可学习和可解释的？

Jun, 2024

数据估值是否可学习和可解释的？

Is Data Valuation Learnable and Interpretable?

Ou Wu, Weiyao Zhu, Mengyang Li

TL;DR通过提出两种新的数据价值建模框架，利用多层感知器和新的回归树作为基础模型进行模型训练和解释性，开展了大量基准数据集上的实验。实验结果积极地回答了数据估值可学习和可解释的重要问题，并为数据价值评估打开了一条新的技术路径。

Abstract

Measuring the value of individual samples is critical for many data-driven tasks, e.g., the training of a deep learning model. Recent literature witnesses the substantial efforts in developing data valuation meth

data valuation shapley value interpretability valuation model deep learning

发现论文，激发创造

数据 Shapley: 机器学习数据的公平估值

本研究提出一种考虑数据公正价值的方法，通过估算数据 Shapley 值来解决在监督学习中评估数据价值的困难，并且发现该方法优于其他流行的评估方法，可以有效提高预测器的性能。

Apr, 2019

利用全球和本地统计信息进行数据估值

数据评估在近年来引起了越来越多的关注，鉴于高质量数据在各种应用中的重要作用，特别是在机器学习任务中。本文探讨了全局和局部价值分布的特征，提出了一种基于所探测到的分布特征的新的数据评估方法，并提出了一种解决动态数据评估问题的新路径，通过制定一个整合全局和局部价值分布信息的优化问题。广泛的实验表明了我们提出方法的有效性和高效性，验证了全局和局部价值分布在数据评估中的重要潜力。

May, 2024

EcoVal: 一种高效的机器学习数据估值框架

我们介绍了一种高效数据估值框架 EcoVal，通过确定类似数据点的群集的价值，并在其成员间传播，以快速而实用的方式估计机器学习模型的数据价值。我们将模型的性能建模为一个生产函数，通过估计每个数据的内在和外在价值来确定整体数据价值。我们通过提供正式证明和阐明加速性能的原理和机制，展示了该方法在实际应用中对于分布内和样本外数据的有效性。该研究解决了机器学习模型中规模化高效数据估值的核心挑战之一。

Feb, 2024

LAVA: 无需预先指定学习算法的数据估值

本文介绍了一种新的数据估值框架，可以在不确定具体学习算法的情况下对数据进行估值，并提出了基于 Wasserstein 距离和敏感性分析的方法来估值，可以检测低质量的数据并在性能方面显著提高。

Apr, 2023

应用强化学习进行数据价值评估

提出了一种基于强化学习的数据估值元学习框架，可以同时学习数据价值和目标任务预测模型，能够在不同类型的数据集和应用场景中，显著提高数据价值估计精度，并在检测错误样本、领域自适应和稳健学习等方面比现有方法表现更出色。

Sep, 2019

可解释性的代价

本文提出一个基于数学框架的方法，构建以逐步可解释的模型。我们演示了应用于实际和合成数据集的实用算法，并定量化了 “可解释性” 的 “价格” 与预测准确性的权衡。

Jul, 2019

数据评估的加速 Shapley 值近似算法

通过利用机器学习问题的结构性质，我们提出了一种更高效的近似数据 Shapley 值的方法，此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明，这种方法在保持数据的近似价值和排名的同时，提高了近似速度最高可达 9.9 倍，并且在使用小的子集进行精确评估时，对预训练网络的效率更高。

Nov, 2023

2D-Shapley：分散数据估值框架

该研究提出一种计算在聚合的数据矩阵中删除片段的对立假设的方法，并进一步提出了二维 Shapley，这是一种理论框架，旨在评估碎片化的数据源，其在碎片化数据上满足某些有吸引力的公理。 2D-Shapley 赋予了一系列新的用例，例如选择有用的数据片段，提供逐个样本的数据值的解释以及精细的数据问题诊断。

Jun, 2023

数据价值评估的分布式框架

提出一个新的统计框架 —— 分布 Shapley，其定义了基于潜在数据分布的点的价值，解决了数据 Shapley 框架的限制，并使用该框架开发了一个新的算法，运行速度比计算（非分布式）数据 Shapley 值的最先进算法快两个数量级，对各种数据集进行了应用并证明了它在数据市场环境中的实用性。

Feb, 2020

无需训练模型的数据估值

本文提出了一种基于数据的分数，称为复杂度差距分数，它是一个训练无关的数据估价分数，可以量化个体实例在两层过度参数化神经网络的泛化中的影响，并用于分析数据集和诊断训练动态。

Jan, 2023