Jun, 2024

CHG Shapley: 高效的数据评估与选择,迈向可靠的机器学习

TL;DR通过计算每个数据子集对模型准确性的效用近似值,在单个模型训练期间推导 CHG(Conduct of Hardness and Gradient)评分的 Shapley 值闭式表达式,我们在大规模数据集上将数据估值方法从多次模型重训练的形式改进为等效于单次模型重训练,极大地提高了计算效率。同时,我们还利用 CHG Shapley 进行实时数据选择,证明其在识别高价值和有噪声数据方面的有效性。CHG Shapley 通过高效的数据估值方法促进了可信的模型训练,为信任值机器学习引入了一种新的以数据为中心的视角。