Nov, 2019
可扩展性与实用性:数据重要性量化中我们是否必须为之牺牲一个?
An Empirical and Comparative Analysis of Data Valuation with Scalable
Algorithms
TL;DR本文研究了现有数据量化方法在数据流程中的表现,并通过理论分析和实验研究比较了这些方法的效用,得出基于预训练功能嵌入的$ K $NN替代的Shapley值近似可以在实现显著可扩展性改进的同时实现具有可比性的实用性和优越性,这也能够证明它在很大程度上优于留一法误差。