EDUCE: 通过无监督概念提取解释模型决策
本文提出一种将解释生成模块附加在基础网络之上、共同训练整个模块的自我解释深度学习模型,适用于无监督概念学习,能够生成有关概念的有意义的解释,并且在概念监督方面有一定的可塑性,具有更好的性能表现。通过在多个数据集上的实验,证明该模型比最近提出的基于概念解释的模型表现更好。
Aug, 2021
本文介绍了一种名为 ExPred 的新方法,采用多任务学习的方法,在任务输入的解释生成阶段有效地平衡了解释和预测的损失,并使用另一个预测网络来优化任务性能。在三个不同的语言数据集上进行了广泛的评估,发现我们明显优于现有方法。
Jan, 2021
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
本文提出了一个完整的框架,将基于概念的解释性方法扩展到 NLP 领域, 提出了一种后期解释性方法,从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,设立了多种评估指标。在真实和合成任务上的广泛实验表明,与基线相比,我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。
May, 2023
SelfExplain 是一种新型的自解释模型,通过基于短语的概念解释文本分类器的预测,在不降低性能的同时增加可解释性,实验结果表明 SelfExplain 的解释能力足以促进模型的置信度。
Mar, 2021
该研究论文提出了一种自监督可解释概念嵌入模型(ICEMs),通过利用大型语言模型的泛化能力,在自监督方式下预测概念标签,并通过可解释的函数提供最终预测结果。实验结果表明,ICEMs 可以以自监督方式进行训练,并达到类似于全监督概念模型和端到端黑盒模型的性能。此外,该模型在预测方面具有解释性、互动性和可控性,能够提供有意义的逻辑解释、允许通过概念干预修改中间预测结果,并引导大型语言模型按照所需的决策路径进行解码。
Jun, 2024
本文提出了一种可解释自然语言理解的框架,使用一小部分人类注释的解释进行训练,并采用变分 EM 方法进行优化,同时提出了基于解释的自训练方法,在两个自然语言理解任务上进行实验,证明了该框架不仅可以在监督和半监督设置下进行有效的预测,还可以生成良好的自然语言解释。
Oct, 2020
提供解释的新框架 TED 可确保解释适合消费者的复杂期望和领域知识,研究表明,有意义的解释可以可靠地教给机器学习算法,并在某些情况下提高建模精度。
Jun, 2019