Feb, 2024

EcoVal: 一种高效的机器学习数据估值框架

TL;DR我们介绍了一种高效数据估值框架 EcoVal,通过确定类似数据点的群集的价值,并在其成员间传播,以快速而实用的方式估计机器学习模型的数据价值。我们将模型的性能建模为一个生产函数,通过估计每个数据的内在和外在价值来确定整体数据价值。我们通过提供正式证明和阐明加速性能的原理和机制,展示了该方法在实际应用中对于分布内和样本外数据的有效性。该研究解决了机器学习模型中规模化高效数据估值的核心挑战之一。