深度自然语言处理中脆弱解释的扰动输入

EMNLPAug, 2021

深度自然语言处理中脆弱解释的扰动输入

Perturbing Inputs for Fragile Interpretations in Deep Natural Language Processing

Sanchit Sinha, Hanjie Chen, Arshdeep Sekhon, Yangfeng Ji, Yanjun Qi

TL;DR本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法，结果表明，即使对少量单词进行更改，这些方法也可能变得不稳定和不可信。

Abstract

interpretability methods like Integrated Gradient and LIME are popular choices for explaining natural language model predictions with relative word importance scores. These interpretations need to be robust for t

interpretability methods natural language model adversarial perturbations interpretation methods transformer models

发现论文，激发创造

神经模型的病态使解释困难

通过 input reduction 方法研究了神经网络模型的缺陷，发现在面对异常数据时大多数模型都表现出困难并难以解释，提出了一种 fine-tuning 方法，通过提高模型的输出熵，增强模型的可解释性。

Apr, 2018

文本输入嵌入空间的可解释对抗扰动

该论文针对自然语言处理（NLP）中的对抗训练的方法应用于词嵌入空间进行改进，使其具有可解释性，从而实现在任务执行时的性能提升。

May, 2018

评估神经语言模型对输入干扰的鲁棒性

我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景，通过各种类型的字符级和单词级扰动方法来模拟这种情况，发现语言模型对输入扰动非常敏感，即使引入了很小的变化，其性能也会下降，需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。

Aug, 2021

解读神经自然语言处理模型对文本扰动的鲁棒性

研究现代自然语言处理模型中对于不同的输入扰动如何表现更差，进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。

Oct, 2021

研究模型不稳定性对解释和不确定性的影响

通过人为引入噪音来模拟文本输入的认知不确定性，在大规模实证研究中，我们插入不同级别的噪音扰动，并测量其对预训练语言模型输出和不同不确定性度量的影响。实际扰动对性能和解释几乎没有影响，而掩饰却有极大影响。我们发现在训练过程中暴露噪声时，高不确定性不一定意味着解释的可信度低；两个度量之间的相关性可能是适度正向的，这表明在不确定时加入噪声的模型可能更容易识别显著的标记。此外，当预测和认知不确定性度量过于自信时，对扰动的鲁棒性可能表明模型的稳定性问题。Integrated Gradients 显示了对扰动的整体最大鲁棒性，同时仍显示出模型特定的性能模式；然而，这种现象仅限于较小的基于 Transformer 的语言模型。

Feb, 2024

深度学习文本分类算法对实际输入扰动的敏感性研究

本文研究基于深度学习的文本分类模型（CNN、LSTM 和 BERT）在面对有意义但与最终性能无关的输入扰动（如标点符号和停用词）时的表现，发现包括 BERT 在内的这类模型都很敏感，特别是对于输入扰动的删除尤其受影响。

Jan, 2022

神经网络解释易受伤

本文探究了解释深度学习预测的方法对于随机扰动的敏感性，发现即使对于具有同一预测标签的两个感官不可分的输入，这些方法也会得出非常不同的解释结果，并分析了导致这种脆弱性的几何原因。

Oct, 2017

自然扰动使问答更具鲁棒性

本文提出一种用人工产生的自然扰动而不是机器规则扰动，通过极小化现有数据集的扰动来使得机器学习模型对小的输入改变不敏感。在 BoolQ 数据集上的实验表明，使用自然扰动能够提高模型的鲁棒性和泛化能力，同时保持原有的高性能。

Apr, 2020

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

基于梯度的 NLP 模型分析易受操控

本文研究了神经网络自然语言处理模型的可解释性，特别是基于梯度的分析方法。我们发现，这些分析方法的梯度很容易被劫持，具有误导性。结合多项自然语言处理任务的实验结果，本文提出一种基于覆盖层的方法来干扰和欺骗这些梯度。

Oct, 2020