概念瓶颈模型是否遵循局部性？

Jan, 2024

Do Concept Bottleneck Models Obey Locality?

Naveen Raman, Mateo Espinosa Zarlenga, Juyeon Heo, Mateja Jamnik

TL;DRCBMs 在局部和相似度方面无法准确捕捉概念的条件独立性，这对于 CBMs 学习的概念表示的质量以及基于概念的解释的鲁棒性产生了质疑。

Abstract

concept-based learning improves a deep learning model's interpretability by explaining its predictions via human-understandable concepts. Deep learning models trained under this paradigm heavily rely on the assum

concept-based learning interpretability neural networks concept bottleneck models (cbms)locality

发现论文，激发创造

我们能约束概念瓶颈模型学习语义有意义的输入特征吗？

概念瓶颈模型是一种具有内在可解释性的模型，本文研究了如何通过细粒度概念注释的数据集学习概念，并通过移除问题概念相关性来实现概念与输入特征之间的语义映射，通过引入基于纸牌领域的合成图像数据集作为未来研究的基准，以及在胸部 X 光数据集上的实证研究来验证概念在实际应用中的可学习性。

Feb, 2024

学习可推广基于概念的模型的辅助损失

我们通过引入概念瓶颈模型（CBMs）和合作 - 概念瓶颈模型（coop-CBM）以及概念正交损失（COL），在各种分布转移设置下的实验中，提出了一种提高神经网络透明度和性能的方法。

Nov, 2023

随机概念瓶颈模型

通过建模概念间的依赖关系并引入分布参数化，提出了一种基于概念瓶颈模型的新方法，通过影响相关概念来提高干预效果，并展示了其在合成表格和自然图像数据集上显著提高干预效果的经验证据，同时还通过对 CLIP 推导的概念进行检验来展示 SCBMs 的多功能性和可用性，减少了人工概念注释的需求。

Jun, 2024

事后概念瓶颈模型

本研究介绍后续概念瓶颈模型（PCBM），它可以将任何神经网络转换为具有解释性的概念瓶颈模型，无需在训练数据中密集注释概念，同时保持模型性能和解释性优势。PCBM 还可以从其他数据集或自然语言描述中通过多模式模型转移概念，从而实现全局模型编辑。通过用户研究表明，通过概念层反馈编辑 PCBM 可以在不使用目标域或模型重新训练的数据的情况下，显著提高性能。

May, 2022

稀疏线性概念发现模型

通过对比性语言图像模型和单一稀疏线性层，我们提出了一个简单而直观的可解释框架，通过基于贝叶斯推理的数据驱动伯努利分布来实现框架中的稀疏性，相比相关方法，在准确性和每个样本概念稀疏性方面均表现出色，为新概念的个体研究提供便利。

Aug, 2023

通过端到端解释深入理解概念瓶颈模型

本文研究对于 Concept Bottleneck Models（CBMs）中的输入特征与概念向量之间的关联性，以及如何使用 Layer-wise Relevance Propagation（LRP）、Integrated Gradients（IG）等方法来解释 CBMs 的输出结果，提出了用权重比例来衡量概念重要性的新方法。

Feb, 2023

交互式概念瓶颈模型

该研究提出一种交互式的 CBMs 模型，通过在预测过程中询问人类协作者对于某些概念的标签来提升最终预测准确率，并通过性能比较证明该模型相较于其他方法更为优越。

Dec, 2022

概率性概念瓶颈模型

本研究中，我们提出了一种基于概率概念瓶颈模型（Probabilistic Concept Bottleneck Models，ProbCBM）的解释性模型，它可以通过建模概念预测的不确定性来提高可靠性和解释性。我们的方法不仅可以提供高水平的概念推导，还可以推断类不确定性。

Jun, 2023

概念瓶颈模型是否学习预期所得？

研究发现概念瓶颈模型很难满足解释性、可预测性和干预性三个目标，使用事后可解释性方法证明概念与输入空间中任何语义上有意义的东西都不对应，因此质疑概念瓶颈模型在目前形式下的实用性。

May, 2021

理解和增强基于概念模型的鲁棒性

本研究旨在研究基于概念模型的鲁棒性和输出一致性的表现，提出并分析了不同的恶意攻击方式，并提出了基于对抗训练的防御机制，探讨了它们对模型在系统性扰动下的鲁棒性，发现所提出的防御方法可以提高概念模型的鲁棒性。

Nov, 2022