我们能约束概念瓶颈模型学习语义有意义的输入特征吗？

Feb, 2024

我们能约束概念瓶颈模型学习语义有意义的输入特征吗？

Can we Constrain Concept Bottleneck Models to Learn Semantically Meaningful Input Features?

Jack Furby, Daniel Cunnington, Dave Braines, Alun Preece

TL;DR概念瓶颈模型是一种具有内在可解释性的模型，本文研究了如何通过细粒度概念注释的数据集学习概念，并通过移除问题概念相关性来实现概念与输入特征之间的语义映射，通过引入基于纸牌领域的合成图像数据集作为未来研究的基准，以及在胸部 X 光数据集上的实证研究来验证概念在实际应用中的可学习性。

Abstract

concept bottleneck models (CBMs) are considered inherently interpretable because they first predict a set of human-defined concepts before using these concepts to predict the output of a downstream task. For inherent in

concept bottleneck models interpretability concept annotations semantic mapping chest x-rays

发现论文，激发创造

瓶颈模型中的跨模式概念化

通过跨模态学习方法，我们在训练中使用文本描述来指导概念的引入，以产生可解释的概念，提高模型的健壮性。

Oct, 2023

概念瓶颈模型是否遵循局部性？

CBMs 在局部和相似度方面无法准确捕捉概念的条件独立性，这对于 CBMs 学习的概念表示的质量以及基于概念的解释的鲁棒性产生了质疑。

Jan, 2024

事后概念瓶颈模型

本研究介绍后续概念瓶颈模型（PCBM），它可以将任何神经网络转换为具有解释性的概念瓶颈模型，无需在训练数据中密集注释概念，同时保持模型性能和解释性优势。PCBM 还可以从其他数据集或自然语言描述中通过多模式模型转移概念，从而实现全局模型编辑。通过用户研究表明，通过概念层反馈编辑 PCBM 可以在不使用目标域或模型重新训练的数据的情况下，显著提高性能。

May, 2022

通过端到端解释深入理解概念瓶颈模型

本文研究对于 Concept Bottleneck Models（CBMs）中的输入特征与概念向量之间的关联性，以及如何使用 Layer-wise Relevance Propagation（LRP）、Integrated Gradients（IG）等方法来解释 CBMs 的输出结果，提出了用权重比例来衡量概念重要性的新方法。

Feb, 2023

随机概念瓶颈模型

通过建模概念间的依赖关系并引入分布参数化，提出了一种基于概念瓶颈模型的新方法，通过影响相关概念来提高干预效果，并展示了其在合成表格和自然图像数据集上显著提高干预效果的经验证据，同时还通过对 CLIP 推导的概念进行检验来展示 SCBMs 的多功能性和可用性，减少了人工概念注释的需求。

Jun, 2024

可编辑的概念瓶颈模型

通过使用数学严谨的闭合形式近似和影响力函数，我们提出了可编辑的概念瓶颈模型（ECBMs），以解决从头重新训练的困境，实现高效率的数据删除和插入操作，从而适应大规模应用中的数据处理需求。

May, 2024

使用监督、层次概念学习消除硬概念瓶颈模型中的信息泄漏

提供标签监督和层次化概念集概念预测模式，SupCBM 消除信息泄漏问题，实现准确预测和解释。

Feb, 2024

具有额外无监督概念的概念瓶颈模型

本文提出了一种基于概念瓶颈模型的新型可解释模型，集成了监督和无监督概念，减少了计算量，同时取得了比 CBM 和 SENN 更优异的实验效果，并可视化每个概念的显著性图，符合语义意义。

Feb, 2022

概率性概念瓶颈模型

本研究中，我们提出了一种基于概率概念瓶颈模型（Probabilistic Concept Bottleneck Models，ProbCBM）的解释性模型，它可以通过建模概念预测的不确定性来提高可靠性和解释性。我们的方法不仅可以提供高水平的概念推导，还可以推断类不确定性。

Jun, 2023

半监督概念瓶颈模型

我们提出了一个名为 SSCBM 的新框架，通过在标记和未标记数据上进行联合训练，并在概念层面对未标记数据进行对齐，解决了现有 CBMs 训练中的限制。实验证明我们的 SSCBM 既有效又高效，在仅有 20% 标记数据的情况下，实现了 93.19%（在完全监督设置下为 96.39%）的概念准确性和 75.51%（在完全监督设置下为 79.82%）的预测准确性。

Jun, 2024