概念瓶颈模型是否学习预期所得？

ICLRMay, 2021

概念瓶颈模型是否学习预期所得？

Do Concept Bottleneck Models Learn as Intended?

Andrei Margeloiu, Matthew Ashman, Umang Bhatt, Yanzhi Chen, Mateja Jamnik...

TL;DR研究发现概念瓶颈模型很难满足解释性、可预测性和干预性三个目标，使用事后可解释性方法证明概念与输入空间中任何语义上有意义的东西都不对应，因此质疑概念瓶颈模型在目前形式下的实用性。

Abstract

concept bottleneck models map from raw inputs to concepts, and then from concepts to targets. Such models aim to incorporate pre-specified, high-level concepts into the learning procedure, and have been motivated to meet three desiderata: →

concept bottleneck models interpretability predictability intervenability post hoc interpretability methods

发现论文，激发创造

我们能约束概念瓶颈模型学习语义有意义的输入特征吗？

概念瓶颈模型是一种具有内在可解释性的模型，本文研究了如何通过细粒度概念注释的数据集学习概念，并通过移除问题概念相关性来实现概念与输入特征之间的语义映射，通过引入基于纸牌领域的合成图像数据集作为未来研究的基准，以及在胸部 X 光数据集上的实证研究来验证概念在实际应用中的可学习性。

Feb, 2024

事后概念瓶颈模型

本研究介绍后续概念瓶颈模型（PCBM），它可以将任何神经网络转换为具有解释性的概念瓶颈模型，无需在训练数据中密集注释概念，同时保持模型性能和解释性优势。PCBM 还可以从其他数据集或自然语言描述中通过多模式模型转移概念，从而实现全局模型编辑。通过用户研究表明，通过概念层反馈编辑 PCBM 可以在不使用目标域或模型重新训练的数据的情况下，显著提高性能。

May, 2022

概念瓶颈模型是否遵循局部性？

CBMs 在局部和相似度方面无法准确捕捉概念的条件独立性，这对于 CBMs 学习的概念表示的质量以及基于概念的解释的鲁棒性产生了质疑。

Jan, 2024

概念瓶颈模型

通过在训练时预测概念并使用这些概念预测标签，概念瓶颈模型提供了对医学影像等领域高级概念的解释与干预，并允许更丰富的人机交互操作，从而实现了与标准的端到端分类器相当的分类准确性。

Jul, 2020

随机概念瓶颈模型

通过建模概念间的依赖关系并引入分布参数化，提出了一种基于概念瓶颈模型的新方法，通过影响相关概念来提高干预效果，并展示了其在合成表格和自然图像数据集上显著提高干预效果的经验证据，同时还通过对 CLIP 推导的概念进行检验来展示 SCBMs 的多功能性和可用性，减少了人工概念注释的需求。

Jun, 2024

概念嵌入模型：超越准确性和可解释性的平衡

该研究提出了一种新的概念限制模型 —— 概念嵌入模型，学习解释性高维概念表示，支持人类干预和提高模型性能，这是一个在真实世界条件下优化准确性、鲁棒性和解释能力之间权衡的方案。

Sep, 2022

通过端到端解释深入理解概念瓶颈模型

本文研究对于 Concept Bottleneck Models（CBMs）中的输入特征与概念向量之间的关联性，以及如何使用 Layer-wise Relevance Propagation（LRP）、Integrated Gradients（IG）等方法来解释 CBMs 的输出结果，提出了用权重比例来衡量概念重要性的新方法。

Feb, 2023

基于能量的概念瓶颈模型：预测、概念干预和条件解释的统一

我们提出了基于能量的概念瓶颈模型（ECBMs），通过使用一组神经网络定义候选（输入、概念、类别）元组的联合能量，以解决现有概念瓶颈模型存在的限制，提供更高的准确性和更丰富的概念解释。

Jan, 2024

具有额外无监督概念的概念瓶颈模型

本文提出了一种基于概念瓶颈模型的新型可解释模型，集成了监督和无监督概念，减少了计算量，同时取得了比 CBM 和 SENN 更优异的实验效果，并可视化每个概念的显著性图，符合语义意义。

Feb, 2022

超越概念瓶颈模型：如何使黑箱可干预？

介绍了一种在已经训练好但不可解释的神经网络上进行基于概念的干预的方法，并将模型的可干预性定义为评估基于概念的干预效果的度量，通过对模型进行微调来改进干预效果并提高预测的校准性。实验结果表明，精调黑盒模型能够在干预效果上与概念瓶颈模型相媲美且更高性能。

Jan, 2024