CAISA 在 SemEval-2023 任务 8 中:对因果声明识别中的分类不平衡进行反事实数据增强
引入了一种无模型数据增强方法来解决不同治疗组之间的统计偏差问题,通过学习表示空间和相似度度量,确保接近的个体拥有相似的潜在结果,从而可靠地预测替代治疗组中个体的反事实结局,并有效减小不同治疗组之间的差异,进而提高现有模型的性能和抗过拟合能力的实验研究表明方法具有显著的改进。
Nov, 2023
本文提出了一种两步数据增强过程,第一步是使用词嵌入方法准备身份对的全面列表,第二步是利用身份对列表通过三种简单的操作(即身份对替换、身份项盲目替换和身份对交换)增强训练实例,实验结果表明,这个增强过程可以产生多样化的身份对,并提高了基于令牌的反事实公平度量得分,适用于两个文本分类任务。
Feb, 2022
该文章介绍了一种基于对抗数据增广的方法,用于提高 Abstractive summarization system 的 factual correctness, 相关方法包括将同一或不同类别的实体或名词的 WordNet hypernyms 进行替换,实验证明,使用我们的方法对 CNN/Dailymail 和 XSum 等数据集进行训练,可将 factual correctness 平均提高约 2.5 个点。
May, 2022
本文提出一种利用对抗生成模型自动生成对抗样本并用成对分类器对其自动标注的框架,通过对仅 10% 人工标注的对抗样本数据进行生成,能有效提高情感分类和问题重述任务等自然语言分类器的 18-20% 稳健性和 14-21% 误差缩减。
May, 2023
本研究提出了利用反事实数据扩充改善机器学习模型中混淆偏差的方法,并探讨了混淆偏差如何影响下游分类器以及基于反事实数据增强的解决方案。另外,我们还介绍了一种生成反事实图片的算法,并在 MNIST 变量和 CelebA 数据集上进行实验,证明了我们的方法的有效性和实用性。
May, 2023
提出了一种新的数据增强技术,结合因果推理和主动学习,根据不确定性区域选择有用的对照样本来最大化模型对未知测试数据的泛化,实验表明,在准确率和 AUC 方面,这种方法在多个现实世界的表格数据集上显著优于基线。
Jul, 2022
本文提供了一种名为 ICDA 的隐式反事实数据增强方法,通过生成具有不同扩展强度的深度特征来打破假象的关联,并从正则化方面解释了这种方法,结果表明我们的方法在许多需要越区域概括的典型学习场景上始终提高了流行深度网络的泛化性能。
Apr, 2023
提出使用生成的对应事实标签进行校正的反事实增强技术,以解决基于用户行为所导致呈现偏倚问题。经验证,该技术比现有的校正方法以及未校正模型产生更好的性能,并且在理想情况下所生成的对应事实与真实对应事实非常接近。
May, 2023
该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法,生成能满足图像属性之间因果关系约束的反事实例,用于解释和评估神经网络模型的偏差,并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。
Sep, 2020