在部分群标签存在的情况下实现群体鲁棒性
通过全面的评估研究,我们首先展示了在医学图像分类中,当偏见不是性能不佳的唯一原因时,对于表现不佳样本的泛化再加权可能存在问题,同时也表明了朴素的不变表示学习在自身存在虚假相关性时也存在问题。然后,我们提出了一种新的方法,利用鲁棒优化来促进在存在虚假相关性的情况下学习不变表示。利用这种表示进行微调的分类器展示了减少子组群性能差异的能力,同时保持了较高的平均性能和最差组群性能。
Aug, 2023
本文提出了一种基于 Gram 矩阵的特征提取模型对训练数据集进行分组的方法,通过伪分组采用鲁棒优化策略来提高模型的容错性能,在没有真实分组标签的情况下证明其在提高模型鲁棒性方面的优越性,并优于最近的所有基线模型。
Aug, 2022
本文提出了一种新的概率组成员身份的框架 PG-DRO,以解决现代机器学习模型易受特定样本组内平均相关性的干扰的问题,通过考虑软组成员身份而不是硬组注释,该框架可以灵活生成组概率,从而更好地适应样本组成员身份模糊的情况,并在图像分类和自然语言处理基准测试中得到了优越性能。
Mar, 2023
这项研究提出了一个修订的方法来在完全无偏见的情况下进行训练和验证无偏见模型,通过采用预训练的自监督模型可靠地提取偏见信息,并与我们的验证准则结合使用逻辑调整训练损失函数。我们的实证分析证明了我们的方法克服了所发现的挑战,始终提高了鲁棒准确性,达到与或优于依赖偏见标签进行验证的最先进方法的性能。
Oct, 2023
通过设计健壮的学习算法以克服任意和无差别的数据损坏,我们提出了一种多群健壮算法,其对每个亚群体的健壮性仅随该亚群体内的数据损坏量而降低。当数据损坏在亚群体中分布不均匀时,我们的算法提供比标准保证更有意义的健壮性保证,这些标准保证对数据损坏和受影响亚群体的关系视而不见。我们的技术在多群公平性和健壮性之间建立了新的联系。
May, 2024
本文主要探讨机器学习中机器如何学习到能够捕捉输入特征与输出标签之间因果关系的鲁棒性表征,以及在有偏或有限数据集上可能存在的虚假相关性。提出了一种基于最小充分统计量的鲁棒表征和虚假表征的信息理论概念,并基于分组分布式鲁棒优化方法来缓解输入分布偏移的问题,同时通过实验展示该方法在图像和语言任务中具有显著的鲁棒性优势。
Jun, 2021
通过准确推断群体标签,以改善最差群体性能,我们提出了一种新方法 GIC,它通过基于两个关键属性的虚假相关性对其进行分类器训练,多个数据集上的实证研究证明了 GIC 推断群体标签的有效性,并将其与多种下游不变性学习方法结合,提高了最差群体准确性,展示了其强大的灵活性。此外,通过分析 GIC 中的误分类,我们还发现了称为语义一致性的有趣现象,可能有助于解耦虚假属性与标签之间的关联,从而减轻虚假相关性。
Apr, 2024
研究了在训练标签被随机噪声污染和误差率依赖于保护子组的成员函数的情况下如何训练公平分类器,发现简单地强制使用人口统计差异措施达到平等,会降低分类器的准确性和公平性。通过使用指定的替代损失函数和替代约束条件对经验风险最小化进行优化可以减少标签噪声引起的问题。
Oct, 2020
本文提出了 JTT 这样一个简单的两阶段方法,利用加重权重的方式提高标准 ERM 模型对于性能低下群组的准确性,从而填补了标准 ERM 模型与 group DRO 之间最差群组准确性差距的 75%,并且只需要在小型验证集上标注群体注释以调整超参数。
Jul, 2021