Jan, 2024

加权最近邻算法的高效数据 Shapley

TL;DR该研究针对数据估值领域的一个悬而未决问题,以加权 $K$ 最近邻算法(WKNN-Shapley)的数据估值为重点,通过将硬标签 KNN 的准确性视为效用函数,重新构思了 WKNN-Shapley 的计算问题,并引入了一个二次时间算法,相比现有文献中的最佳结果 $O (N^K)$ 有显著改进。我们开发了一种确定性近似算法,进一步提高了计算效率,同时保持了 Shapley 值的关键公平性质。通过大量实验,我们证明了 WKNN-Shapley 在计算效率和数据质量识别方面的卓越性能,相较于其无权重对应方法。