SelfExplain: 一种用于神经文本分类器的自说明体系结构

Mar, 2021

SelfExplain: 一种用于神经文本分类器的自说明体系结构

SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers

Dheeraj Rajagopal, Vidhisha Balachandran, Eduard Hovy, Yulia Tsvetkov

TL;DRSelfExplain 是一种新型的自解释模型，通过基于短语的概念解释文本分类器的预测，在不降低性能的同时增加可解释性，实验结果表明 SelfExplain 的解释能力足以促进模型的置信度。

Abstract

We introduce selfexplain, a novel self-explaining model that explains a text classifier's predictions using phrase-based concepts. selfexplain augments existing →

selfexplain text classifier neural classifiers interpretable layer interpretability

发现论文，激发创造

自解释结构提高自然语言处理模型

本论文提出了一种简单而通用的自说明深度学习模型的框架，通过添加一个解释层来聚合不同文本段落的信息并赋予权重，不需要额外的诱导模型，可以为高层次的文本单元提供直接的重要性评分，并在 SST-5 和 SNLI 数据集上取得了新的最好表现。

Dec, 2020

自解释神经网络的稳健可解释性研究

提出了自说明模型的三个特点 —— 显式性，忠诚度和稳定性，旨在落实模型可解释性并实现复杂模型的解释性，通过特定模型的正则化实现忠诚度和稳定性的要求，实验结果表明，该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。

Jun, 2018

一个自说明的神经架构用于可推广的概念学习

利用自我解释的架构跨领域进行概念学习，提出新的概念显著网络、对比学习和基于原型的概念基准规范化方法来解决概念一致性和泛化能力的问题，并在四个实际数据集上展示了方法的有效性。

May, 2024

学习的视觉特征到文本解释

利用大型语言模型解释视觉模型的学习特征，通过训练神经网络建立图像分类器和语言模型之间的连接，生成大量的句子来解释分类器学习到的特征，并提取最频繁的词语，增强图像分类器的解释性和鲁棒性。

Sep, 2023

自解释式学习

通过学习自我解释的过程，我们介绍了一种名为 LSX 的新学习范式，旨在增强人工智能模型的泛化能力，减轻混杂因素的影响，并提供更具任务特异性和忠实度的模型解释。

Sep, 2023

面向可解释性自然语言处理：文本分类的生成式解释框架

本文提出了一个新的生成式解释框架，学习同时进行分类决策和生成细粒度解释，实验证明该方法可以生成简明的解释，超过所有基线系统。

Nov, 2018

自说明人工智能作为可解释人工智能的替代方案

本研究提出了一种自我解释的 AI 的概念，它能够解释其决策的机制并提供信心水平，但由于深度神经网络的双下降现象，训练复杂真实世界数据的神经网络难以解释和外推，因此深度学习系统需要包括特定预警来保证其应用的安全性。

Feb, 2020

高维文本分类器解释

使用理论证明的高维特性，在神经网络分类器中提出一种新的可解释性方法，并在经典情感分析任务和恶意软件检测任务中进行了实验。

Nov, 2023

通过概念学习先验可解释模型的框架

本文提出一种将解释生成模块附加在基础网络之上、共同训练整个模块的自我解释深度学习模型，适用于无监督概念学习，能够生成有关概念的有意义的解释，并且在概念监督方面有一定的可塑性，具有更好的性能表现。通过在多个数据集上的实验，证明该模型比最近提出的基于概念解释的模型表现更好。

Aug, 2021

基于概率的自解释神经网络用于重症监护室死亡预测

本研究提出了一种基于专家知识的临床概念或中间特征作为解释单元的自我解释深度学习框架，并在公开的电子健康记录数据集上进行了实验。实验结果表明，该模型的解释性组件不会影响预测性能，并且模型生成的解释可以为医生提供了解病人死亡原因的洞见。

Oct, 2021