Jun, 2024

利用替代模型方法进行 XAI 的黑客攻击

TL;DR最近几年,高度复杂人工智能系统的新应用数量大幅增长。算法决策系统 (ADMs) 是其中之一,其通过人工智能系统代替人类专家的决策过程。为确保此类系统的公平性和透明性,可解释人工智能 (XAI) 越来越重要。一种实现可解释性的变体是 surrogate 模型,即基于黑盒模型的输入 - 输出关系训练新的简化的机器学习模型的思想。简化的机器学习模型可以是决策树,被认为对人类直观可理解。然而,关于 surrogate 模型多好地逼近黑盒模型,我们知之甚少。本文的主要假设是一个良好的 surrogate 模型方法应能引起人类的注意力,先前我们假定一个 surrogate 决策树在其前几层将识别出这种歧视模式。然而,在本文中我们展示,即使被歧视的子群体在所有类别上与其他相同,也不会从黑盒 ADM 系统获得任何正面决策,相应的群体成员问题可以由系统操作者推迟到任意低的层级。我们进一步将此发现推广到准确定位歧视问题被问及的决策树层级,并展示在更现实的场景中,即只有某一部分处于劣势的群体才发生歧视,隐藏这种歧视行为更加可行。我们的方法可以轻易应用于其他 surrogate 模型。