异质相似度下的监督对比学习用于分布偏移
监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时,是一个新兴的领域,解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结,并全面调查了现有方法,重点介绍了文献中常用的六种方法。此外,本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接,讨论了重大挑战,并确定了未来研究的潜在方向。
Feb, 2024
自学习和对比学习已经成为将无标签数据纳入研究中的领先技术,无论是在分布偏移(无监督领域适应)的情况下还是在不存在分布偏移(半监督学习)时。然而,尽管这些技术的流行和兼容性,它们在组合中的有效性尚未被探究。在本文中,我们对这种组合进行了系统的实证研究,发现在领域适应设置中,自学习和对比学习可以提供显著的互补优势;而在半监督学习设置中,令人惊讶的是,两种方法并不具有协同效应。通过八个分布偏移数据集的实验(如 BREEDs,WILDS),我们证明了综合方法比任一方法都可获得 3-8%的更高准确度。然后,我们在分布偏移的简化模型中对这些技术进行了理论分析,证明了对比学习产生的特征可以为自学习提供良好的初始化,进而增强收益并实现最佳性能,即使单独应用方法可能会失败。
Dec, 2023
本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题,并通过学习训练样本的权重以消除特征之间的依赖关系,从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验,与同类研究相比,我们的方法取得了很好的效果。
Apr, 2021
提出了一个基于表示学习和样本重加权的误差界,针对因果推断和无监督域自适应问题,在设计转换下减少泛化误差的算法框架,与以往方法相比具有更好的效果并具有渐近一致性。
Feb, 2018
本论文提出了一种基于分布鲁棒优化的模型,通过设计并分析梯度下降 - 近端镜像上升算法,用一次训练获得一个对多种标签偏移都具有稳健性的单一分类器,并在 CIFAR-100 和 ImageNet 上的实验中展示出其显著的性能提高。
Oct, 2020
本文针对分布转移对深度学习模型性能和可靠性的影响,研究了两种类型的分布转移:多样性转移和相关性转移,并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题,最终有三个发现:模型在低偏差情况下仍学习和传播与转移相关的内容;模型学习了强健的特征但仍使用其他的特征;多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。
May, 2023
在分布转移理论中,通过采用不变风险最小化(IRM)类似的假设连接分布,研究源分布到目标分布的分类器,揭示了源分布数据足够准确分类目标的条件,并讨论了在这些条件不满足时,只需目标的无标签数据或标记目标数据的情况,并提供了严格的理论保证。
May, 2024
本文扩展了 Shifts 数据集,加入了两个来源于高风险工业应用的数据集,用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计,具有普遍分布转移和严格的安全要求。
Jun, 2022
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。
May, 2024