Sep, 2019

基于注意力解释的欺骗学习

TL;DR本研究提出一种简单方法,通过训练模型生成欺骗性的注意力掩码,从而质疑注意机制的可靠性,因为通过操纵注意权重,即使我们可以证明模型仍然依赖这些特征来驱动预测,我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究,我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别,从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。