双重扰动：关于鲁棒性和反事实偏差评估的稳健性

ACLApr, 2021

双重扰动：关于鲁棒性和反事实偏差评估的稳健性

Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation

Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang, Cho-Jui Hsieh

TL;DR本文提出一种 “双重扰动” 框架，以揭示测试数据集之外的模型弱点。我们将该框架应用于研究两种基于扰动方法的分析模型稳健性和反事实偏差的方法，并引入新的攻击方法以找到易受攻击的案例。该方法可揭示在测试数据集中未直接显示的隐含模型偏见。

Abstract

robustness and counterfactual bias are usually evaluated on a test dataset. However, are these evaluations robust? If the test dataset is perturbed slightly, will the evaluation results keep the same? In this pap

robustness counterfactual bias perturbation model weaknesses vulnerable examples

发现论文，激发创造

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

逆事实例子是否使对抗性训练变得复杂？

我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例：语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上，鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外，当直接在反事实例上进行评估时，鲁棒模型的性能非常差，因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明，非鲁棒和语义特征之间存在显著的重叠，与普遍的非鲁棒特征不可解释的假设相反。

Apr, 2024

通过性别不明确的代词进行反事实偏见评估的计数器

本文提出了一种新的方法通过反事实生成来收集多样性，自然性和最小距离的文本对，并构建了一个由 4008 个实例分成 1002 个四重组成的 Counter-GAP 注释数据集，以评估语言模型在固指消解中的性别偏见问题。作者使用四重组级别指标解决了以前的偏差取消问题，并发现四个预训练的语言模型在不同性别组之间的不一致性显着大于在每个组内部的不一致性，姓名为基础的反事实数据增强方法比匿名化方法对减少这种偏见更有效。

Feb, 2023

通过自动生成的反事实情况实现文本分类中对伪相关性的鲁棒性

通过增加具有相反特性和标签的反事实数据来训练鲁棒的文本分类器，以强化模型可靠性和泛化性，实验证明，其在人工生成对照样本和原始测试数据上表现出较高的鲁棒性和精准度。

Dec, 2020

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

生成强健的反事实解释

本文提出了一种名为 CROCO 的新框架，用于生成具有鲁棒性的反事实解释，并有效地管理反事实输入更改带来的挑战，针对表格数据进行评估，证明了该方法的有效性。

Apr, 2023

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

使用反事实模拟测试发现变压器和卷积神经网络之间的差异

本研究提出了反事实模拟测试的框架，并使用构建的逼真合成场景研究深度神经网络对特定情景变化的鲁棒性问题，发现随着网络规模和数据规模多样性的增加，所有网络的鲁棒性均有所提高，并通过对比发现 ConvNext 对姿态和尺度变化更加鲁棒，而 Swin 对部分遮挡更加鲁棒，同时发布了包含 272k 张自然变形的对象图片的数据集（NVD）

Nov, 2022