异质相似度下的监督对比学习用于分布偏移

Apr, 2023

异质相似度下的监督对比学习用于分布偏移

Supervised Contrastive Learning with Heterogeneous Similarity for Distribution Shifts

Takuro Kutsuna

TL;DR本文提出了一种利用监督对比学习的新型正则化方法，通过将余弦相似度扩展到更一般的相似度度量，建议在比较样本与正 / 负例子时使用不同的参数，并在此基础上提出了一种具有优势的方法，用于处理数据分布变化的问题，这种方法尤其适合使用高度代表性的模型，如神经网络。

Abstract

distribution shifts are problems where the distribution of data changes between training and testing, which can significantly degrade the performance of a model deployed in the real world. Recent studies suggest that one reason for the degradation is a type of →

distribution shifts overfitting regularization supervised contrastive learning neural networks

发现论文，激发创造

分布转移下的监督算法公平性：一项综述

监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时，是一个新兴的领域，解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结，并全面调查了现有方法，重点介绍了文献中常用的六种方法。此外，本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接，讨论了重大挑战，并确定了未来研究的潜在方向。

Feb, 2024

对分布偏移下对比学习和自训练的互补优势

自学习和对比学习已经成为将无标签数据纳入研究中的领先技术，无论是在分布偏移（无监督领域适应）的情况下还是在不存在分布偏移（半监督学习）时。然而，尽管这些技术的流行和兼容性，它们在组合中的有效性尚未被探究。在本文中，我们对这种组合进行了系统的实证研究，发现在领域适应设置中，自学习和对比学习可以提供显著的互补优势；而在半监督学习设置中，令人惊讶的是，两种方法并不具有协同效应。通过八个分布偏移数据集的实验（如 BREEDs，WILDS），我们证明了综合方法比任一方法都可获得 3-8％的更高准确度。然后，我们在分布偏移的简化模型中对这些技术进行了理论分析，证明了对比学习产生的特征可以为自学习提供良好的初始化，进而增强收益并实现最佳性能，即使单独应用方法可能会失败。

Dec, 2023

量化分布漂移和不确定性，提升机器学习应用的模型鲁棒性

使用合成数据和统计度量来评估分布变化和模型不确定性，为实现机器学习应用在现实世界中的成功部署提供了重要方法和见解。

May, 2024

深度稳健学习 - 针对外部分布泛化

本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题，并通过学习训练样本的权重以消除特征之间的依赖关系，从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验，与同类研究相比，我们的方法取得了很好的效果。

Apr, 2021

学习加权表示以实现跨设计通用化

提出了一个基于表示学习和样本重加权的误差界，针对因果推断和无监督域自适应问题，在设计转换下减少泛化误差的算法框架，与以往方法相比具有更好的效果并具有渐近一致性。

Feb, 2018

通过分布式鲁棒性优化应对标签漂移

本论文提出了一种基于分布鲁棒优化的模型，通过设计并分析梯度下降 - 近端镜像上升算法，用一次训练获得一个对多种标签偏移都具有稳健性的单一分类器，并在 CIFAR-100 和 ImageNet 上的实验中展示出其显著的性能提高。

Oct, 2020

即使是微小的相关性和多样性变化也会导致数据集偏差问题

本文针对分布转移对深度学习模型性能和可靠性的影响，研究了两种类型的分布转移：多样性转移和相关性转移，并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题，最终有三个发现：模型在低偏差情况下仍学习和传播与转移相关的内容；模型学习了强健的特征但仍使用其他的特征；多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。

May, 2023

超越差异：对分布偏移理论的深入研究

在分布转移理论中，通过采用不变风险最小化（IRM）类似的假设连接分布，研究源分布到目标分布的分类器，揭示了源分布数据足够准确分类目标的条件，并讨论了在这些条件不满足时，只需目标的无标签数据或标记目标数据的情况，并提供了严格的理论保证。

May, 2024

Shifts 2.0：扩展实际分布漂移数据集

本文扩展了 Shifts 数据集，加入了两个来源于高风险工业应用的数据集，用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计，具有普遍分布转移和严格的安全要求。

Jun, 2022

公正中心技术简报：分布偏移的定义和检测

在机器学习任务中，分布偏移是一种常见情况，其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移，关注标准预测问题，即学习一个以输入序列为输入（预测变量）X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。

May, 2024