本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint,它可以自动生成按标签关联的话题的模型预测解释,实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当,而且生成的解释比其他可解释的神经文本分类器更符合模型预测,并且更易于被人类理解。
Feb, 2022
提出了一种新方法,即检测特征交互来构建分层解释,从而可视化不同层级中单词和短语的组合方式,帮助用户理解黑匣子模型的决策过程,并在 LSTMs、CNNs 和 BERTs 三个神经文本分类器的两个基准数据集上进行了评估,通过自动和人工评估实验证明此方法提供的解释既忠实于模型,又易于解释。
Apr, 2020
通过对复杂的基于 BERT 的分类器使用基于段落的方法,本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性,大大提高了基准分类任务的解释保真度。
Dec, 2020
本论文提出了一种简单而通用的自说明深度学习模型的框架,通过添加一个解释层来聚合不同文本段落的信息并赋予权重,不需要额外的诱导模型,可以为高层次的文本单元提供直接的重要性评分,并在 SST-5 和 SNLI 数据集上取得了新的最好表现。
本文提出了一个新的生成式解释框架,学习同时进行分类决策和生成细粒度解释,实验证明该方法可以生成简明的解释,超过所有基线系统。
Nov, 2018
本文提出了一种新型的可解释深度神经网络的解释,通过使用掩蔽权重,可以将隐藏特征分解成几个输入限制的子网络,并训练成专家混合的增强模型,为复杂的机器学习模型提供说明,提高其效率,并实现了对合理解释进行推荐任务。
Aug, 2020
本文提出了一个完整的框架,将基于概念的解释性方法扩展到 NLP 领域, 提出了一种后期解释性方法,从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,设立了多种评估指标。在真实和合成任务上的广泛实验表明,与基线相比,我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。
May, 2023
本文提出了一种可解释自然语言理解的框架,使用一小部分人类注释的解释进行训练,并采用变分 EM 方法进行优化,同时提出了基于解释的自训练方法,在两个自然语言理解任务上进行实验,证明了该框架不仅可以在监督和半监督设置下进行有效的预测,还可以生成良好的自然语言解释。
Oct, 2020
本研究提出了一种图注意力神经网络模型,结合了用户、物品、属性和句子,用于基于抽取的解释的推荐系统,解决了现有解决方案在轻松感知、可靠性和个性化方面的不足之处。在两个基准评论数据集上的广泛实证评估表明了所提出解决方案的生成质量。
本文在财务领域探讨复杂机器学习模型的解释方法。通过使用生成对抗网络生成合成数据并训练一种新型的分段线性模型,能够提供更好的局部后续模型无关解释,其中包括对单个特征的归因以及对其背景的解释。
Sep, 2020