Nov, 2023

通过逆识别标记神经表示

TL;DR我们提出了一种逆向识别方法(INVERT),通过利用学习表示与人可理解的概念之间的区分能力,实现了将学习表示与其对应解释相连接的可扩展方法。此方法具有较低的计算复杂度并且不依赖于分割掩码的可用性,还提供了一个可解释的度量来评估表示与其相应解释之间的一致性并提供统计显著性的度量值,强调其实用性和可信度。我们展示了INVERT在各种场景中的适用性,包括识别受偶然相关性影响的表示以及对模型中决策层次结构的解释。