Jan, 2024

超越概念瓶颈模型:如何使黑箱可干预?

TL;DR介绍了一种在已经训练好但不可解释的神经网络上进行基于概念的干预的方法,并将模型的可干预性定义为评估基于概念的干预效果的度量,通过对模型进行微调来改进干预效果并提高预测的校准性。实验结果表明,精调黑盒模型能够在干预效果上与概念瓶颈模型相媲美且更高性能。