理解和增强基于概念模型的鲁棒性

AAAINov, 2022

理解和增强基于概念模型的鲁棒性

Understanding and Enhancing Robustness of Concept-based Models

Sanchit Sinha, Mengdi Huai, Jianhui Sun, Aidong Zhang

TL;DR本研究旨在研究基于概念模型的鲁棒性和输出一致性的表现，提出并分析了不同的恶意攻击方式，并提出了基于对抗训练的防御机制，探讨了它们对模型在系统性扰动下的鲁棒性，发现所提出的防御方法可以提高概念模型的鲁棒性。

Abstract

Rising usage of deep neural networks to perform decision making in critical applications like medical diagnosis and financial analysis have raised concerns regarding their reliability and trustworthiness. As automated systems become more mainstream, it is important their decisions be transparent, reliable and understandable by humans for better trust and con

concept bottleneck models self-explaining neural networks concept-based models adversarial perturbations robustness

发现论文，激发创造

学习可推广基于概念的模型的辅助损失

我们通过引入概念瓶颈模型（CBMs）和合作 - 概念瓶颈模型（coop-CBM）以及概念正交损失（COL），在各种分布转移设置下的实验中，提出了一种提高神经网络透明度和性能的方法。

Nov, 2023

具有额外无监督概念的概念瓶颈模型

本文提出了一种基于概念瓶颈模型的新型可解释模型，集成了监督和无监督概念，减少了计算量，同时取得了比 CBM 和 SENN 更优异的实验效果，并可视化每个概念的显著性图，符合语义意义。

Feb, 2022

随机概念瓶颈模型

通过建模概念间的依赖关系并引入分布参数化，提出了一种基于概念瓶颈模型的新方法，通过影响相关概念来提高干预效果，并展示了其在合成表格和自然图像数据集上显著提高干预效果的经验证据，同时还通过对 CLIP 推导的概念进行检验来展示 SCBMs 的多功能性和可用性，减少了人工概念注释的需求。

Jun, 2024

稀疏线性概念发现模型

通过对比性语言图像模型和单一稀疏线性层，我们提出了一个简单而直观的可解释框架，通过基于贝叶斯推理的数据驱动伯努利分布来实现框架中的稀疏性，相比相关方法，在准确性和每个样本概念稀疏性方面均表现出色，为新概念的个体研究提供便利。

Aug, 2023

概念瓶颈模型的可解释预测

通过提出基于概念解释的概念瓶颈模型（CBMs）来预测剩余寿命，改进了深度学习在工业资产预测中缺乏解释性的问题，并展示了 CBMs 在剩余寿命预测中的性能优势和可解释性。

May, 2024

我们能约束概念瓶颈模型学习语义有意义的输入特征吗？

概念瓶颈模型是一种具有内在可解释性的模型，本文研究了如何通过细粒度概念注释的数据集学习概念，并通过移除问题概念相关性来实现概念与输入特征之间的语义映射，通过引入基于纸牌领域的合成图像数据集作为未来研究的基准，以及在胸部 X 光数据集上的实证研究来验证概念在实际应用中的可学习性。

Feb, 2024

概念瓶颈模型是否遵循局部性？

CBMs 在局部和相似度方面无法准确捕捉概念的条件独立性，这对于 CBMs 学习的概念表示的质量以及基于概念的解释的鲁棒性产生了质疑。

Jan, 2024

概率性概念瓶颈模型

本研究中，我们提出了一种基于概率概念瓶颈模型（Probabilistic Concept Bottleneck Models，ProbCBM）的解释性模型，它可以通过建模概念预测的不确定性来提高可靠性和解释性。我们的方法不仅可以提供高水平的概念推导，还可以推断类不确定性。

Jun, 2023

学会接受帮助：干预感知的概念嵌入模型

通过构建和解释高层概念的预测，概念瓶颈模型（CBMs）解决了神经架构的不透明性。我们提出了一种新的 CBM 基于架构和训练范式的模型，称为 Intervention-aware Concept Embedding models（IntCEMs），通过在训练时学习概念干预策略，有效地选择和接受概念干预，从而在测试时显著提高性能。我们的实验证明，当提供测试时概念干预时，IntCEMs 明显优于最先进的概念可解释模型，验证了我们方法的有效性。

Sep, 2023

概念嵌入模型：超越准确性和可解释性的平衡

该研究提出了一种新的概念限制模型 —— 概念嵌入模型，学习解释性高维概念表示，支持人类干预和提高模型性能，这是一个在真实世界条件下优化准确性、鲁棒性和解释能力之间权衡的方案。

Sep, 2022