概念瓶颈模型是一种具有内在可解释性的模型,本文研究了如何通过细粒度概念注释的数据集学习概念,并通过移除问题概念相关性来实现概念与输入特征之间的语义映射,通过引入基于纸牌领域的合成图像数据集作为未来研究的基准,以及在胸部 X 光数据集上的实证研究来验证概念在实际应用中的可学习性。
Feb, 2024
我们通过引入概念瓶颈模型(CBMs)和合作 - 概念瓶颈模型(coop-CBM)以及概念正交损失(COL),在各种分布转移设置下的实验中,提出了一种提高神经网络透明度和性能的方法。
Nov, 2023
通过建模概念间的依赖关系并引入分布参数化,提出了一种基于概念瓶颈模型的新方法,通过影响相关概念来提高干预效果,并展示了其在合成表格和自然图像数据集上显著提高干预效果的经验证据,同时还通过对 CLIP 推导的概念进行检验来展示 SCBMs 的多功能性和可用性,减少了人工概念注释的需求。
Jun, 2024
本研究介绍后续概念瓶颈模型(PCBM),它可以将任何神经网络转换为具有解释性的概念瓶颈模型,无需在训练数据中密集注释概念,同时保持模型性能和解释性优势。PCBM 还可以从其他数据集或自然语言描述中通过多模式模型转移概念,从而实现全局模型编辑。通过用户研究表明,通过概念层反馈编辑 PCBM 可以在不使用目标域或模型重新训练的数据的情况下,显著提高性能。
May, 2022
通过对比性语言图像模型和单一稀疏线性层,我们提出了一个简单而直观的可解释框架,通过基于贝叶斯推理的数据驱动伯努利分布来实现框架中的稀疏性,相比相关方法,在准确性和每个样本概念稀疏性方面均表现出色,为新概念的个体研究提供便利。
Aug, 2023
本文研究对于 Concept Bottleneck Models(CBMs)中的输入特征与概念向量之间的关联性,以及如何使用 Layer-wise Relevance Propagation(LRP)、Integrated Gradients(IG)等方法来解释 CBMs 的输出结果,提出了用权重比例来衡量概念重要性的新方法。
Feb, 2023
该研究提出一种交互式的 CBMs 模型,通过在预测过程中询问人类协作者对于某些概念的标签来提升最终预测准确率,并通过性能比较证明该模型相较于其他方法更为优越。
Dec, 2022
本研究中,我们提出了一种基于概率概念瓶颈模型(Probabilistic Concept Bottleneck Models,ProbCBM)的解释性模型,它可以通过建模概念预测的不确定性来提高可靠性和解释性。我们的方法不仅可以提供高水平的概念推导,还可以推断类不确定性。
Jun, 2023
研究发现概念瓶颈模型很难满足解释性、可预测性和干预性三个目标,使用事后可解释性方法证明概念与输入空间中任何语义上有意义的东西都不对应,因此质疑概念瓶颈模型在目前形式下的实用性。
May, 2021
本研究旨在研究基于概念模型的鲁棒性和输出一致性的表现,提出并分析了不同的恶意攻击方式,并提出了基于对抗训练的防御机制,探讨了它们对模型在系统性扰动下的鲁棒性,发现所提出的防御方法可以提高概念模型的鲁棒性。
Nov, 2022