自标记对抗性反事实推理：用于负例推广的场景

May, 2023

自标记对抗性反事实推理：用于负例推广的场景

SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative Examples

Deqing Fu, Ameya Godbole, Robin Jia

TL;DR本文提出 SCENE 方法，一种自动方法用于综合训练数据以有效提高模型检测负面样本的能力，该方法通过自标记对抗法来实现对正例数据的零样本负例数据合成，并通过对 SQuAD 2.0 数据集和 ACE-whQA 数据集的实验结果表明该方法可显著提高自然语言理解任务的性能和泛化能力。

Abstract

Detecting negatives (such as non-entailment relationships, unanswerable questions, and false claims) is an important and challenging aspect of many natural language understanding tasks. Though manually collecting challenging →

natural language understanding negative examples data augmentation self-labeled counterfactuals training data

发现论文，激发创造

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

反事实增强的 SNLI 训练数据不比未增强的数据具有更好的泛化性能

本研究发现，通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集，不利于训练模型的泛化性和鲁棒性，并且在成本考虑上使用此种方法带来的收益很少。

Oct, 2020

最大化利用少量反事实增强情感分类鲁棒性

针对文本分类任务中的模型过度依赖模式数据的问题，本文提出了一种新的解决方案，使用编码向量空间的自动生成机制减少新数据生成的人工成本，只需对原始训练数据的一小部分（例如 1％）进行注释即可获得明显的准确性改进。实验证明，该方法对情感分类有效，并在使用 IMDb 数据进行训练和 Amazon、SemEval 和 Yelp 等其他数据集进行 OOD 测试时，仅添加 1％手动反事实数据即可获得 + 3％的准确性提升，相比于添加 100％的训练样本和其他反事实方法比较，准确性提高了 1.3％。

Oct, 2022

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022

基于零样本下的零模型向导的文本反事实生成

通过全面的自然语言处理（NLP）下游任务中的实验证明，最近大型语言模型（LLMs）作为零 - shot 反事实生成器在评估和解释黑盒 NLP 模型方面具有高效性。

May, 2024

利用对抗扰动的对比学习实现条件文本生成

该论文通过对比正负样本来缓解序列到序列模型中的条件文本生成问题，通过生成正负样本来引导模型更好地区分正确的输出和错误的输出，并提出了一种原则性的方法来生成正负样本，改进了机器翻译、文本摘要和问题生成等三个文本生成任务的泛化能力。

Dec, 2020

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

COCO-Counterfactuals: 自动构建的图像 - 文本对反事实例子

利用文本到图像扩散模型，介绍了一种自动生成对应对的反事实例子的可扩展框架，创造了基于 MS-COCO 数据集的多模态反事实数据集 COCO-Counterfactuals，并通过人工评估验证了其质量，进一步表明现有的多模态模型受到了反事实图文对的挑战，并展示了 COCO-Counterfactuals 在通过训练数据增强改善跨域通用性的多模态视觉语言模型方面的实用性。

Sep, 2023

通过反事实例和梯度监督学习区分重要因素

使用对照例子作为监督信号，改进深度学习的训练方法，提高神经网络的泛化能力及性能。

Apr, 2020

自监督反事实度量学习用于去偏视觉问答

我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题，该方法可以自适应地选择与问题相关的视觉特征来回答问题，从而减少与问题不相关的视觉特征对推断答案的负面影响，实验证明了我们方法对 VQA-CP 数据集具有提升效果。

Apr, 2023