人类的编辑更好：评估 LLM 生成的反事实扩充数据对有害语言检测的有效性

EMNLPNov, 2023

人类的编辑更好：评估 LLM 生成的反事实扩充数据对有害语言检测的有效性

People Make Better Edits: Measuring the Efficacy of LLM-Generated Counterfactually Augmented Data for Harmful Language Detection

PDF

Indira Sen, Dennis Assenmacher, Mattia Samory, Isabelle Augenstein, Wil van der Aalst...

TL;DRNLP 模型在社交计算的各种重要任务中被使用，例如检测性别歧视、种族歧视或其他憎恨内容。因此，这些模型对于虚假特征的稳健性至关重要。过去的研究尝试使用训练数据增强来解决这些虚假特征问题，包括 Counterfactually Augmented Data (CADs)。CADs 在现有训练数据点上引入最小的更改并翻转其标签；使用它们进行训练可能减少模型对虚假特征的依赖性。然而，手动生成 CADs 可能是耗时且昂贵的。因此，在本研究中，我们评估了使用生成性 NLP 模型是否可以自动化这一任务。我们使用 Polyjuice、ChatGPT 和 Flan-T5 自动生成 CADs，并与手动生成的 CADs 进行比较，评估其提高模型稳健性的效用。通过测试模型在多个域外测试集上的性能和单个数据点的有效性，我们的结果显示，手动 CADs 仍然是最有效的，ChatGPT 生成的 CADs 排名第二。自动化方法性能较低的一个关键原因是它们引入的更改通常不足以翻转原始标签。

Abstract

nlp models are used in a variety of critical social computing tasks, such as detecting sexist, racist, or otherwise hateful content. Therefore, it is imperative that these models are robust to →

nlp models social computing tasks spurious features counterfactually augmented data automated generative nlp models

发现论文，激发创造

计数事实增益数据如何影响社交计算构造模型？

研究如何提高自然语言处理模型的稳健性，发现使用对抗性生成数据可以降低模型在错误特征上的依赖，从而提高模型在领域外的泛化性能。

Sep, 2021

解释反事实增强数据的功效

本文提出了一种基于因果模型的玩具模型，探讨了因果模型、测量噪声、跨领域泛化以及对虚假信号的依赖之间的有趣关系，并以大规模经验研究为基础，比较了用于创建 CAD 的跨度与关注区域和显著性图所选跨度之间的差异，发现对于 CAD，研究中提出的假说在许多领域和模型中都是显著的。

Oct, 2020

反事实增强数据的有效性研究

研究表明，尽管预训练语言模型在自然语言理解基准测试上表现出色，但它们往往依赖于虚假的相关性并且对分布外数据的推广效果差，最近的工作探索使用反事实增强数据（CAD）-- 通过最小程度的扰动示例来翻转基本事实标签的数据 -- 来识别在分布移位下不变的强健特征，然而，使用 CAD 进行分布外泛化的实证结果存在异议。

Jul, 2021

透过对抗事实数据消除性别歧视和仇恨言论检测中的偏差

研究结论表明：使用 CAD 的模型在面对一些难以处理的数据集时，由于对核心元素进行扰动引入了模型偏见，甚至比原始数据训练的模型误报率更高。使用多样化的 CAD (既有构造驱动又有用于基础特征不变的 CAD) 可以减少此类意外偏差。

May, 2022

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

AutoCAD: 生成对策让模型克服快捷学习

本文介绍了一个完全自动且任务不可知的 CAD 生成框架 AutoCAD，该框架结合分类器解析生成对抗数据，通过不太可能的训练生成多样性的对抗，从而系统提高了不同 NLU 任务的预训练模型在多个挑战基准测试中的翻译能力。

Nov, 2022

释放反事实增强数据在超出分布的泛化中的潜力

通过引入两个额外的基于 Counterfactually-Augmented Data 的结构属性约束，从而从 Fisher 的线性判别的角度分析特征空间中的近视现象，本研究发现 Counterfactually-Augmented Data 的潜力没有被充分利用，通过改进的方法，可以提高语言模型的 OOD 泛化能力，进而提高模型性能。

Oct, 2023

提高语言模型的超出分布普适能力：反事实增强数据是不够的

本文研究了 Counterfactually-Augmented Data 对自然语言处理模型的改进作用，发现其普遍存在的近视现象导致了其潜能无法完全被发掘。作者设计了两类新的约束来帮助提取更完整的因果特征，通过情感分析和自然语言推理两个任务来验证该方法，实验结果表明该方法能够释放 CAD 的潜能，并提高模型的 OOD 泛化能力。

Feb, 2023

基于模型的对抗生成器用于性别偏见缓解

通过使用数据处理技术和双目标训练方案，我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见，并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。

Nov, 2023

用于生成和评估逆事实的 LLMs：一项全面研究

NLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估，发现 LLMs 生成流利但改动较大的反事实样本，数据增强效果与人工生成的样本相比有明显差距。此外，LLMs 对偏标签数据的评估表现出明显的偏向性，而 GPT4 对此偏见更加稳健，并且其得分与自动评价指标具有很好的相关性。研究结果揭示了几个限制，并指出了未来的研究方向。

Apr, 2024