Jun, 2021

反事实解释可被操纵

TL;DR本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给特定的子群体。这些发现引起了对当前反事实解释技术可信度的担忧,并希望能启发对健壮性反事实解释的探索。