通过分布特征匹配实现带健壮性保证的标签偏移量量化

Jun, 2023

通过分布特征匹配实现带健壮性保证的标签偏移量量化

Label Shift Quantification with Robustness Guarantees via Distribution Feature Matching

Bastien Dussap, Gilles Blanchard, Badr-Eddine Chérief-Abdellatif

TL;DR本文提出了一种分布特征匹配（DFM）框架，可以估计标签偏移下的目标标签分布，并研究了 DFM 程序在存在未知污染分布的假设下的健壮性。

Abstract

quantification learning deals with the task of estimating the target label distribution under label shift. In this paper, we first present a unifying framework, →

quantification learning label shift distribution feature matching performance bound robustness

发现论文，激发创造

通过分布式鲁棒性优化应对标签漂移

本论文提出了一种基于分布鲁棒优化的模型，通过设计并分析梯度下降 - 近端镜像上升算法，用一次训练获得一个对多种标签偏移都具有稳健性的单一分类器，并在 CIFAR-100 和 ImageNet 上的实验中展示出其显著的性能提高。

Oct, 2020

基于核方法的标签偏移适应中的类别概率匹配

在领域适应中，协变量偏移和标签偏移问题是两个不同而互补的任务。针对标签偏移适应，提出了一种称为类概率匹配的新框架，通过匹配两个类概率函数在一维标签空间上估计类概率比率，与在 $d$ 维特征空间上操作的特征概率匹配方法有根本区别。将核逻辑回归纳入类概率匹配框架中，提出了一种称为基于核方法的类概率匹配的算法，用于标签偏移适应。从理论角度，建立了多类标签偏移适应中 CPMKM 相对于交叉熵损失的最优收敛速度。从实验角度，对真实数据集进行比较表明，CPMKM 优于现有基于 FPM 和最大似然的算法。

Dec, 2023

双质量学习：处理封闭集分布转变的算法设计框架

用弱监督数据和数据集变化训练机器学习模型仍然具有挑战性。在这两种情况下设计算法的探索尚不多见，并且现有算法不能始终处理最复杂的分布变化。我们认为，双质数据设置是设计这类算法的合适框架。我们提出了两种方法，一种受到标签噪声文献的启发，另一种受到协变量变换文献的启发，用于双质学习。我们在许多真实数据集上使用两种新方法对概念漂移和类条件变化进行了合成，并开展了一些讨论，评估双质学习算法在分布变化下的鲁棒性仍然是未来研究的一个有趣问题。

Aug, 2023

量化分布漂移和不确定性，提升机器学习应用的模型鲁棒性

使用合成数据和统计度量来评估分布变化和模型不确定性，为实现机器学习应用在现实世界中的成功部署提供了重要方法和见解。

May, 2024

分布偏移的细粒度分析

本研究提出了一种框架来分析各种分布转移，并通过评估 19 个不同类别的方法，提供了当前最先进方法的整体分析。结果显示，与标准 ERM 基线相比，预训练和数据扩充（学习或启发式）在许多情况下都具有很大的优势，但不能很好地适应不同的数据集和转移。

Oct, 2021

任意风格转换和域泛化的精确特征分布匹配

本文针对视觉学习中的任意风格转换（AST）和领域泛化（DG）任务，提出了一种新的特征分布匹配方法，即精确特征分布匹配（EFDM），通过在图像特征空间中应用准确的直方图匹配（EHM），准确地匹配了图像特征的经验累积分布函数（eCDF），在各种 AST 和 DG 任务中取得了最新颖的成果，并提供了源代码。

Mar, 2022

特征偏移检测与校正的对抗学习

利用对抗性学习的原则，结合主流的监督分类器和简单迭代启发式方法，本研究探索了利用多个辨别器的信息来检测和修复数据集之间特征变化，以消除特征变化所带来的分布偏移，优于当前的统计和神经网络技术。

Dec, 2023

后验特征对鲁棒性的局限性

通过在训练神经网络时匹配测试集分布的特征激活分布来提高鲁棒性的特征对齐方法是一种简单有效的方法，但其局限性较为明显，只有在狭窄的分布转移情况下才会显著有所改善，并且有一些情况下它甚至会导致性能下降，因此本研究在更深层次探究了这种方法，疑问了该方法及更广泛的无监督域自适应方法对于提高实际鲁棒性的效用。

Mar, 2021

应对组合分布偏移：基于矩阵补全的视角

在分布漂移下的泛化问题中，我们研究了组合分布漂移这个设置，利用双线性嵌入进行分析，发展了一系列理论结果，并给出了应对渐进谱衰减的新算法、泛化保证和线性代数结果。

Jul, 2023

二进制量化和数据集变化：实验调查

在这项研究中，我们通过实验分析了当前的定量化算法在不同类型的数据集偏移下的行为，以识别现有方法的局限性，并为开发更广泛适用的方法铺平道路。我们通过提出细粒度的数据集偏移类型分类，建立受这些偏移类型影响的数据集生成协议，并在生成的数据集上测试现有的定量化方法。研究结果表明，许多已被发现对于先验概率偏移具有鲁棒性的定量化方法对于其他类型的数据集偏移可能不具备鲁棒性。此外，没有发现任何现有的定量化方法能够对我们在实验中模拟的所有数据集偏移类型具备足够的鲁棒性。

Oct, 2023