自标记对抗性反事实推理:用于负例推广的场景
本研究发现,通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集,不利于训练模型的泛化性和鲁棒性,并且在成本考虑上使用此种方法带来的收益很少。
Oct, 2020
针对文本分类任务中的模型过度依赖模式数据的问题,本文提出了一种新的解决方案,使用编码向量空间的自动生成机制减少新数据生成的人工成本,只需对原始训练数据的一小部分(例如 1%)进行注释即可获得明显的准确性改进。实验证明,该方法对情感分类有效,并在使用 IMDb 数据进行训练和 Amazon、SemEval 和 Yelp 等其他数据集进行 OOD 测试时,仅添加 1%手动反事实数据即可获得 + 3%的准确性提升,相比于添加 100%的训练样本和其他反事实方法比较,准确性提高了 1.3%。
Oct, 2022
本文提出了 NeuroCounterfactuals 方法,通过松散的对比事实产生更大规模的编辑,从而使得生成的文本包含语言多样性,同时与原始文档相似,使得训练数据增强在情感分类方面取得了良好的效果。
Oct, 2022
通过全面的自然语言处理(NLP)下游任务中的实验证明,最近大型语言模型(LLMs)作为零 - shot 反事实生成器在评估和解释黑盒 NLP 模型方面具有高效性。
May, 2024
该论文通过对比正负样本来缓解序列到序列模型中的条件文本生成问题,通过生成正负样本来引导模型更好地区分正确的输出和错误的输出,并提出了一种原则性的方法来生成正负样本,改进了机器翻译、文本摘要和问题生成等三个文本生成任务的泛化能力。
Dec, 2020
本研究提出了反事实推理模型,在学习少量反事实样本的基础上,通过生成对于每个正面事实样本的代表性反事实样本,并使用回顾模块根据对比反事实和正事实样本来检查模型预测,从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。
Jun, 2021
利用文本到图像扩散模型,介绍了一种自动生成对应对的反事实例子的可扩展框架,创造了基于 MS-COCO 数据集的多模态反事实数据集 COCO-Counterfactuals,并通过人工评估验证了其质量,进一步表明现有的多模态模型受到了反事实图文对的挑战,并展示了 COCO-Counterfactuals 在通过训练数据增强改善跨域通用性的多模态视觉语言模型方面的实用性。
Sep, 2023
我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题,该方法可以自适应地选择与问题相关的视觉特征来回答问题,从而减少与问题不相关的视觉特征对推断答案的负面影响,实验证明了我们方法对 VQA-CP 数据集具有提升效果。
Apr, 2023