探索关系抽取中的自动扰动自然语言解释

May, 2023

探索关系抽取中的自动扰动自然语言解释

Exploring Automatically Perturbed Natural Language Explanations in Relation Extraction

Wanyun Cui, Xingran Chen

TL;DR本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性，并发现即使是完全被破坏的解释，也仍有助于提供额外的上下文空间，从而取得与标注解释相当的结果，但计算效率显著提高了 20-30 倍。

Abstract

Previous research has demonstrated that natural language explanations provide valuable inductive biases that guide models, thereby improving the generalization ability and →

natural language explanations inductive biases data efficiency corruption computational efficiency

发现论文，激发创造

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

针对 NLP 模型的最优健壮性解释保证

本文提出了基于绑架式解释的机器学习方法，为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数，例如解释长度，优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性，该方法通过内隐命中集和最大通用子集两种解法得出结果，并可以配置不同的扰动集来检测预测结果的偏见，提高 NLP 解释框架的效果。最后，文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估，并展示了该框架的有效性。

May, 2021

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

使用人类解释监督模型关注力以强化自然语言推理

探究利用自然语言解释来监督模型的注意力权重，促使其更集中于解释中的关键词，从而提高模型性能，此方法的实验表明，这种改进可以适用于其它 NLI 数据集

Apr, 2021

Few-shot 提示在文本推理中解释的不可靠性

本文研究了将 GPT-3 等大型语言模型与说明相结合是否能够提高上下文学习效果，发现对于涉及文本推理的自然语言推理和问答任务，使用不同样式的说明对 OPT、GPT-3（davinci）和 InstructGPT（text-davinci-001）等四个 LLM 的性能仅会带来小至中等的准确性提高，而 text-davinci-002 能够带来更实质性的提高，并且 LLM 产生的说明可能不支持、甚至与模型预测不一致，但这些说明仍有助于验证模型的预测，在此观察基础上，文章通过训练校准器使用自动提取的评分评估说明的可靠性，从而在全部数据集上实现后处理性能的提高。

May, 2022

使用随机调查实验测试基于显著性的可解释性在自然语言处理中的有效性

该研究通过一个基于随机抽样的实验，旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性，结果表明，人类往往会倾向于较少批判性地接受该类解释。

Nov, 2022

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

研究模型不稳定性对解释和不确定性的影响

通过人为引入噪音来模拟文本输入的认知不确定性，在大规模实证研究中，我们插入不同级别的噪音扰动，并测量其对预训练语言模型输出和不同不确定性度量的影响。实际扰动对性能和解释几乎没有影响，而掩饰却有极大影响。我们发现在训练过程中暴露噪声时，高不确定性不一定意味着解释的可信度低；两个度量之间的相关性可能是适度正向的，这表明在不确定时加入噪声的模型可能更容易识别显著的标记。此外，当预测和认知不确定性度量过于自信时，对扰动的鲁棒性可能表明模型的稳定性问题。Integrated Gradients 显示了对扰动的整体最大鲁棒性，同时仍显示出模型特定的性能模式；然而，这种现象仅限于较小的基于 Transformer 的语言模型。

Feb, 2024

利用无标签数据进行上下文学习的解释选取

本文提出了一种黑盒优化解释注入的提示方法，以提高文本推理任务的性能，在问题回答、数学推理和自然语言推理等四个文本推理任务中实现了有效的促进效果。

Feb, 2023

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021