本文提出了一个完整的框架,将基于概念的解释性方法扩展到 NLP 领域, 提出了一种后期解释性方法,从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,设立了多种评估指标。在真实和合成任务上的广泛实验表明,与基线相比,我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。
May, 2023
该研究提出了 ConceptX 人在循环框架,用于解释深度语言模型中预训练隐藏表达空间,并提供自动生成的基于语言本体论的概念注释,以表示这些模型中学习到的隐含概念,从而帮助注释人员标记模型中的偏见。
Nov, 2022
本文提出了后续可解释的人工智能方法 L-CRP,可以生成更细致的解释,自动识别和可视化模型在推理过程中学习、识别和使用的相关概念,并在输入空间中精确定位它们,进而揭示和验证背景特征的使用和存在,并说明对各个流行数据集的效果。
该论文提出一种后期无监督方法,通过分解和聚类方法,自动发现深度学习模型中的概念向量,从而支持可解释性分析,可以成功鉴别与疏离数据有关的训练样本
Jul, 2023
该研究论文介绍了基于概念的解释,比如概念激活向量可以有效地描述概念,并讨论了自动提取概念的方法,展示了它们在真实世界应用中的效用。
Feb, 2022
COAT utilizes large language models to extract potential causal factors from unstructured data and assists in uncovering underlying causal systems.
Feb, 2024
提出一种自我解释模型 ConRAT,它从输入文本中提取概念,并使用关键概念的线性聚合来解释结果,以可解释性和预测性能方面超越了最先进的方法。
May, 2021
提出了概念解释的原则和求解算法 ACE,能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。
Feb, 2019
本研究通过使用干预机制,利用离散变分自编码器来转移预测类别,进而可视化任何隐藏层的编码信息和对应的被干预表示来揭示深度神经网络的隐含概念,并通过评估原始表示与被干预表示之间的差异来确定可改变类别的概念,从而提高模型的可解释性。我们在 CelebA 数据集上展示了我们方法的有效性,并展示了有偏差数据的各种可视化并提供不同的干预方法来揭示和更正偏见。
Dec, 2021
本研究探讨了一种利用潜在特征产生对照解释的新方向,通过添加新特征改变分类结果的方法进行预测的解释,证明了该方法在样本丰富的数据集上产生的直观解释优于其他方法,并可作为目前最先进的解释性方法的补充。
May, 2019