该研究针对机器学习应用中存在的假相关问题,以图像分类为例,提出两种数据生成策略来减少此类问题,并在多个领域的数据集上表现出更好的准确性和更好的解释能力。
Jun, 2021
数据驱动的学习中出现虚假相关性,我们通过合并推导虚假相关性的指标,研究它们对基于 ERM 基线模型的影响,并从因果图生成的合成数据集中观察连接这些假设和模型设计选择的模式。
Aug, 2023
研究表明,梯度下降训练的神经网络具有归纳偏差,倾向于学习简单的解决方案,导致学习到与标签高度相关的简单虚假特征而非复杂的核心特征,此文介绍一种名为 SPARE 的方法,能够早期发现含有虚假相关性的大型分组,并利用重要性抽样来平衡组大小,从而减轻虚假关联的影响,相对于现有方法,SPARE 方法的最差组准确度提高了最高达 5.6%,速度提高了多达 12 倍。
May, 2023
本文提出了一种使用生成模型来检测分类器失效的方法,在三种分类错误中测试了该方法的有效性,并探讨了半监督学习中不受类标签影响的适用性。
Oct, 2020
机器学习系统对输入的偏倚特征(例如背景、纹理和次要对象)与相应标签之间的虚假相关性非常敏感。本综述提供了对该问题的全面回顾,以及现有最先进方法的分类体系,用于解决机器学习模型中的虚假相关性。此外,我们总结了现有的数据集、标杆和度量方法,以帮助未来的研究。综述最后讨论了该领域的最新进展和未来的研究挑战,旨在为相关领域的研究人员提供有价值的见解。
Feb, 2024
使用大规模文本到图像扩散模型生成虚假特征的方法,通过利用已发现的虚假图像个性化扩散模型,并基于对抗性稳定模型的神经特征提出了一种新的虚假特征相似性损失,实验证明我们的方法能够一致且可视地生成与虚假 ImageNet 参考图像相似的虚假图像。
本文区分了 NLP 中的 “虚假相关” 中的两种情况(特征对标签的影响是否取决于上下文),并使用因果模型和必要性和充分性概率对其进行了更细致的处理,说明了现有去偏差方法的结果,并揭示了去偏差后模型表示中虚假特征的编码。
Oct, 2022
通过检测和去除虚假特征来间接发现因果模型,以加强预测模型的鲁棒性和泛化能力,并说明问题的时间结构信息对于在线检测虚假特征至关重要。
Jun, 2020
本文提出了一种通用框架来发现一般模型推断中使用的一些杂项和核心的视觉特征,并在大量图像上对这些视觉特征进行定位,从而对各种著名的 Imagenet 模型进行分析和评估。
Oct, 2021
研究超参数化为什么会增加模型大小,尽管数据中存在虚假相关性,具有各种数量的少数族裔,理论上证明模型的归纳偏差会导致过度参数化的问题,并提出子抽样是有效的解决方案。
May, 2020