针对学习鲁棒分类器的伪装感知元学习
在此研究中,我们提出了一种自引导的伪相关性缓解框架,它在无需标注伪相关性的情况下,自动构建了适合经验风险最小化得到的分类器的细粒度训练标签,以提高其对伪相关性的鲁棒性。通过在一种新颖的伪相关性嵌入空间中识别分类器的不同预测行为,并结合自动检测的概念属性和一种新颖的伪相关度量来构造细粒度的训练标签,我们证明了训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖,而无需事先知道它们,并且在五个真实世界的数据集上优于先前的方法。
May, 2024
机器学习系统对输入的偏倚特征(例如背景、纹理和次要对象)与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾,以及现有最先进方法的分类体系,用于解决机器学习模型中的虚假相关性。此外,我们总结了现有的数据集、标杆和度量方法,以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战,旨在为相关领域的研究人员提供有价值的见解。
Feb, 2024
我们提出了一种高效侦测潜在假相关的通用方法,相对于现有技术需要更少人工干预,并且在消除像素级注释的同时提供直观的解释。此方法对 AI 生成的图像的特殊性表现出容忍度,而这是一个相当具有挑战性的任务,大多数现有方法在此方面存在不足。因此,我们的方法也适用于检测由生成模型产生的可能会传播到下游应用程序中的假相关。
Nov, 2023
本文提出了一种区分文本分类器中误导性和真实关联的方法,将其作为监督分类问题,并利用来自治疗效应估计器的特征,通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验,表明这种方法提高了最坏情况下的准确性和更好的分类效果。
Oct, 2020
提出了一种框架,用于基于存在的虚假线索以及图像排名,评估 ImageNet 模型的错误关联问题,通过对错误排名和正确排名的图像的准确度差距的测量(称为虚假差距),对 89 个 ImageNet 模型进行评估,发现即使是最好的模型在具有虚假线索存在的图像中也表现不佳,并且这种虚假线索的影响在不同的类别之间差异更大。
Dec, 2022
该论文提出了一种利用多模态模型中的不同模态来检测和明确区分有影响的类别中的虚假属性的方法,通过表达语言来体现虚假关系的多模态对比损失函数,在 CLIP 上实验结果表明,这种干预可以有效地提高模型的准确性。
Apr, 2023
该研究针对机器学习应用中存在的假相关问题,以图像分类为例,提出两种数据生成策略来减少此类问题,并在多个领域的数据集上表现出更好的准确性和更好的解释能力。
Jun, 2021
本文提出了一种机器学习模型稳健性的框架,通过人类关于因果关系的常识知识来解决模型在训练和测试过程中的不一致性问题。透过在每个训练数据中加入人类标注的潜在未测变量,将问题转化为协变量转移问题,并引入分布稳健优化目标来控制测试时偏移的最坏情况损失,实验结果表明,在具有旋转混淆的数字识别任务和分析 NYPD 警务巡逻地点混杂的任务中能获得 5-10% 和 1.5-5% 的性能提升。
Jul, 2020
本文通过研究发现,预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时,预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下,我们提出使用多任务学习(MTL)来提高泛化能力。我们在自然语言推断和释义识别上的实验表明,MTL 可显着提高在具有挑战性的情况下的性能,而不会影响分布内性能。此外,我们表明,MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。
Jul, 2020
本研究介绍了一种简单有效的方法来消除预先训练的机器学习模型中存在的伪相关性,该方法通过数据混合平衡所有类别中的伪属性,并在多种视觉和 NLP 任务中获得了最先进的表现。
May, 2023