Apr, 2022

使用 Shapley 重要性在端到端机器学习管道中进行数据调试

TL;DR本文介绍了一种名为 DataScope 的系统,它是第一个能够高效计算端到端 ML pipeline 中每个训练样例 Shapley 值的系统,并展示了它在数据调试方面的应用。作者首先开发了一种计算特定 ML pipeline 族群中 Shapley 值的新算法框架,然后将其应用于不同的实例中。实验结果表明,DataScope 比现有的基于蒙特卡罗方法的方法快上四个数量级,同时在数据调试方面同样有效甚至更加有效。