自动基于概念的解释
提出概念为基础的方法可帮助我们解释人工神经网络的决策,介绍了一个理论框架,可以定义和澄清概念提取和重要性评估两个步骤,并尝试解决解释性中的一个关键问题:如何有效地识别以类似共享策略分类的数据点组成的簇。
Jun, 2023
本文研究深度神经网络的基于概念的可解释性,提出了一种概念完备性度量和一种概念发现方法来寻找既能够解释模型预测,又易于理解的完备概念集,并提出 ConceptSHAP 方法来为每个概念定义重要性得分,在合成和真实数据集上验证了方法的有效性。
Oct, 2019
最近的研究关注点已经从简单地提高深度神经网络(DNNs)在各种任务中的性能转向了更具人可解释性的 DNNs。人工智能解释性领域已经观察到了包括基于显著性和基于概念的技术。概念是人类可理解的数据单元,是人类思考的基础。本文系统地回顾和分类了 DNNs 中各种概念表示及其发现算法,特别是在视觉领域。同时也提供了关于基于概念的模型改进文献的详细信息,这是第一个调查基于概念的模型改进方法的研究。
Mar, 2024
通过人类实验,我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策,这一结果挑战了应用这些方法的普遍好处的假定,在可解释的 AI 研究中人类评价的重要性下应该得到重视。
Dec, 2020
研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务,来解释可解释的 AI 的互动可能。结果表明,特定的正则化可以用于优化可解释性,而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明,认知块比变量重复更影响表现,并且这些趋势在任务和领域中保持一致。
Jan, 2019
本文提出了一个完整的框架,将基于概念的解释性方法扩展到 NLP 领域, 提出了一种后期解释性方法,从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,设立了多种评估指标。在真实和合成任务上的广泛实验表明,与基线相比,我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。
May, 2023
本文研究机器学习算法中普遍存在的可解释性方法,通过不同的解释方法应用到简单的模型中,发现不同之处并提出一种新的方法来比较不同解释间的差异。
Jul, 2022
该论文研究了如何利用深度学习神经网络中学习到的内在特征,利用概念分析方法和归纳逻辑编程理论,构建基于符号的模型,实现黑盒机器学习的可解释性,体现其透明度和可靠性的要求。
May, 2021