May, 2024

关于 KNN-Shapley 值的通胀

TL;DR基于 Shapley 值的数据评估方法,在考虑样本对所有可能的训练子集的贡献时,量化每个个体样本的有用性。然而,这些方法面临价值膨胀的挑战 - 虽然具有负 Shapley 值的样本是有害的,但一些具有正值的样本也可能具有负面效果。为了解决这些问题,我们提出了 Calibrated KNN-Shapley (CKNN-Shapley),将零作为阈值进行校准,以通过减轻小型训练子集的负面影响,区分有害样本和有益样本。通过广泛的实验,我们展示了 CKNN-Shapley 在缓解数据评估膨胀、检测有害样本和评估数据质量方面的有效性。我们还将我们的方法扩展到非传统的分类设置,包括对存在标记错误的数据、流数据的在线学习以及标签注释的主动学习等多样实际场景。