通过鲁棒性改进和解释引导训练实现忠实的文本分类解释

Dec, 2023

通过鲁棒性改进和解释引导训练实现忠实的文本分类解释

Towards Faithful Explanations for Text Classification with Robustness Improvement and Explanation Guided Training

Dongfang Li, Baotian Hu, Qingcai Chen, Shan He

TL;DR提出了一种名为 REGEX 的方法，通过改善模型的鲁棒性和引导解释训练，实现对文本分类的更准确的特征解释，实验证明 REGEX 在各种设置下提高了解释的准确性，并在两个随机化测试中取得了一致的增益。此外，使用 REGEX 产生的高亮解释来训练选定 - 然后 - 预测模型在任务性能上可与端到端方法相媲美。

Abstract

feature attribution methods highlight the important input tokens as explanations to model predictions, which have been widely applied to deep neural networks towards trustworthy ai. However, recent works show tha

feature attribution methods trustworthy ai robustness improvement explanation guided training text classification

发现论文，激发创造

构建学习的忠实理性化

提出了一种名为 FRESH 的简化模型解释方法，通过使用任意的特征重要性分数来导出二进制标签以训练提取器，再用提取器提供的片段训练独立分类器模块，从而构成可信解释，具有超越端到端方法的预测性能优势并更容易实现。

Apr, 2020

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

使用 Transformer 评估文本归因的对抗鲁棒性

通过提出 attribution robustness（AR）的概念，使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性，并提出了 TransformerExplanationAttack（TEA）的概念，利用最先进的语言模型，提取单词替换，从而展示了对于几种文本分类架构的实验，证明了 TEA 在提高对上下文敏感性的同时，更加流畅，更不易被察觉。

Dec, 2022

文本预测的忠实且稳健的局部解释性

FRED 是一种新颖的文本解释方法，通过识别文档中对预测结果有重大影响的关键词，建立在可解释性的分类器的稳定可靠性，并通过与最先进方法的实证评估展示了 FRED 在提供对文本模型的洞察力方面的有效性。

Oct, 2023

享受显著性：基于单词显著性的 Transformer 模型的更好及忠实解释

本文探讨了如何提高基于预训练 Transformer 的模型的预测性能以及其对于预测理由的准确性，并提出了一种名为 SaLoss 的辅助损失函数，该函数利用 TextRank 方法从训练数据中提取信息以辅助 BERT 进行下游任务的微调，实验证明使用该函数训练的模型比普通 BERT 模型更加准确和有说服力，提高了在下游任务中的预测性能。

Aug, 2021

DARE：针对生物医学和医疗保健应用的强韧文本解释

本文旨在解决当前越来越普遍的深度神经网络 “黑匣子” 问题，介绍了如何适应不同领域的需求来提高解释方法的鲁棒性，并提供两种训练方法来缓解其脆弱性，最终通过实验证明了方法的有效性。

Jul, 2023

使用输入 - 梯度空间对齐进行属性鲁棒性训练

本研究提出了一种训练方法（ART），能够减小图像空间相关性对模型解释鲁棒性的影响，并在多个标准数据集上显著提高了解释鲁棒性，并且在弱监督目标定位任务上实现了新的最佳性能。

Nov, 2019

深度神经网络的基于梯度的解释方法 —— 鲁棒性解释指南

本文介绍了解释深度神经网络的渐变解释性方法，讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用，并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。

Jul, 2021

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

鲁棒归因正则化

通过公理归因神经网络的视角，我们提出了经典鲁棒优化模型的训练目标，旨在实现鲁棒的集成梯度归因。实验结果表明了我们方法的有效性，并表明需要更好的优化技术或更好的神经网络架构来进行鲁棒的归因训练。

May, 2019