计数事实增益数据如何影响社交计算构造模型？

EMNLPSep, 2021

计数事实增益数据如何影响社交计算构造模型？

How Does Counterfactually Augmented Data Impact Models for Social Computing Constructs?

Indira Sen, Mattia Samory, Fabian Floeck, Claudia Wagner, Isabelle Augenstein

TL;DR研究如何提高自然语言处理模型的稳健性，发现使用对抗性生成数据可以降低模型在错误特征上的依赖，从而提高模型在领域外的泛化性能。

Abstract

As nlp models are increasingly deployed in socially situated settings such as online abusive content detection, it is crucial to ensure that these models are robust. One way of improving →

nlp models counterfactually augmented data socially situated settings model robustness out-of-domain generalizability

发现论文，激发创造

透过对抗事实数据消除性别歧视和仇恨言论检测中的偏差

研究结论表明：使用 CAD 的模型在面对一些难以处理的数据集时，由于对核心元素进行扰动引入了模型偏见，甚至比原始数据训练的模型误报率更高。使用多样化的 CAD (既有构造驱动又有用于基础特征不变的 CAD) 可以减少此类意外偏差。

May, 2022

人类的编辑更好：评估 LLM 生成的反事实扩充数据对有害语言检测的有效性

NLP 模型在社交计算的各种重要任务中被使用，例如检测性别歧视、种族歧视或其他憎恨内容。因此，这些模型对于虚假特征的稳健性至关重要。过去的研究尝试使用训练数据增强来解决这些虚假特征问题，包括 Counterfactually Augmented Data (CADs)。CADs 在现有训练数据点上引入最小的更改并翻转其标签；使用它们进行训练可能减少模型对虚假特征的依赖性。然而，手动生成 CADs 可能是耗时且昂贵的。因此，在本研究中，我们评估了使用生成性 NLP 模型是否可以自动化这一任务。我们使用 Polyjuice、ChatGPT 和 Flan-T5 自动生成 CADs，并与手动生成的 CADs 进行比较，评估其提高模型稳健性的效用。通过测试模型在多个域外测试集上的性能和单个数据点的有效性，我们的结果显示，手动 CADs 仍然是最有效的，ChatGPT 生成的 CADs 排名第二。自动化方法性能较低的一个关键原因是它们引入的更改通常不足以翻转原始标签。

Nov, 2023

解释反事实增强数据的功效

本文提出了一种基于因果模型的玩具模型，探讨了因果模型、测量噪声、跨领域泛化以及对虚假信号的依赖之间的有趣关系，并以大规模经验研究为基础，比较了用于创建 CAD 的跨度与关注区域和显著性图所选跨度之间的差异，发现对于 CAD，研究中提出的假说在许多领域和模型中都是显著的。

Oct, 2020

反事实增强数据的有效性研究

研究表明，尽管预训练语言模型在自然语言理解基准测试上表现出色，但它们往往依赖于虚假的相关性并且对分布外数据的推广效果差，最近的工作探索使用反事实增强数据（CAD）-- 通过最小程度的扰动示例来翻转基本事实标签的数据 -- 来识别在分布移位下不变的强健特征，然而，使用 CAD 进行分布外泛化的实证结果存在异议。

Jul, 2021

提高语言模型的超出分布普适能力：反事实增强数据是不够的

本文研究了 Counterfactually-Augmented Data 对自然语言处理模型的改进作用，发现其普遍存在的近视现象导致了其潜能无法完全被发掘。作者设计了两类新的约束来帮助提取更完整的因果特征，通过情感分析和自然语言推理两个任务来验证该方法，实验结果表明该方法能够释放 CAD 的潜能，并提高模型的 OOD 泛化能力。

Feb, 2023

释放反事实增强数据在超出分布的泛化中的潜力

通过引入两个额外的基于 Counterfactually-Augmented Data 的结构属性约束，从而从 Fisher 的线性判别的角度分析特征空间中的近视现象，本研究发现 Counterfactually-Augmented Data 的潜力没有被充分利用，通过改进的方法，可以提高语言模型的 OOD 泛化能力，进而提高模型性能。

Oct, 2023

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

PairCFR：通过对比学习增强对配对因果增强数据模型训练

通过对已有数据样本进行最小且充分的修改以改变其标签，Counterfactually Augmented Data (CAD) 创建新的数据样本。与 CAD 训练可以增强模型对与标签相关的偶然特征的鲁棒性相比，最新的研究表明，通过 CAD 训练可能导致模型过分关注修改后的特征，而忽视其他重要的上下文信息，无意中引入可能损害在分布外数据集上性能的偏见。为了缓解这个问题，在学习反事实线索的同时，我们采用对比学习来促进全局特征对齐。我们在两个人工编辑的 CAD 数据集上进行了全面的实验证明，我们提出的方法在分布外数据集上优于现有技术。

Jun, 2024

反事实增强的 SNLI 训练数据不比未增强的数据具有更好的泛化性能

本研究发现，通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集，不利于训练模型的泛化性和鲁棒性，并且在成本考虑上使用此种方法带来的收益很少。

Oct, 2020

基于模型的对抗生成器用于性别偏见缓解

通过使用数据处理技术和双目标训练方案，我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见，并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。

Nov, 2023