SimPro: 一个简单的基于概率的真实长尾半监督学习框架

Feb, 2024

SimPro: 一个简单的基于概率的真实长尾半监督学习框架

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning

Chaoqun Du, Yizeng Han, Gao Huang

TL;DR在这项研究中，我们提出了一个新颖的、高度适应的框架SimPro，它不依赖于对未标记数据分布的任何预定义假设。基于一种概率模型，我们创新地改进了期望最大化（EM）算法，通过明确分离条件和边际类别分布的建模来实现。这种分离在最大化阶段为类别分布估计提供了一个闭合形式的解，从而推导出贝叶斯分类器。而贝叶斯分类器则提高了期望阶段中伪标签的质量。值得注意的是，SimPro框架不仅具备理论保证，而且易于实现。我们还引入了两种新颖的类别分布，扩大了评估的范围。我们的方法在不同基准和数据分布场景下展示了一致的最先进性能。

Abstract

Recent advancements in semi-supervised learning have focused on a more realistic yet challenging task: addressing imbalances in labeled data while the class distribution of unlabeled data remains both unknown and

发现论文，激发创造

探究式学习

本文提出了一种探索性EM算法，在数据存在未知类别的情况下，通过探索性半监督学习方法对多分类学习方法进行改进，从而在具有种子示例的类上显著提高了性能。

Jul, 2013

半监督分类的对比悲观似然估计

提出了一种通用的半监督参数估计方法，通过对“对比度”和“悲观主义”等概念的引入，实现了半监督分类器的改进，并在LDA的案例研究中证明了该方法的有效性。

Mar, 2015

非参数半监督学习的类别比例

该研究提出了解决从正类和未标记数据中开发二元分类器的问题的方法，其中主要集中在如何准确估计正类和负类先验概率的问题。通过研究非参数类先验估计和使用混合模型估计混合比例，该研究提供了一个新的算法以解决问题，通过实际转换为低维空间来解决高维密度估计等问题。

Jan, 2016

纯净半监督学习：在只有很少标记图像的情况下进行半监督学习

本文针对有限标注信息下的半监督学习进行研究，分析了当前应用最广的半监督学习方法FixMatch在这种情况下的表现和局限，提出了一种利用自监督学习方法提供训练信号以及优化伪标签筛选过程的方案，并在STL-10数据集上得到了显著提高。

Dec, 2021

一种极为简单的半监督不平衡学习基线模型

SimiS是一种简单而有效的SSL算法，通过用伪标签补充数据以解决类别不平衡问题，在CIFAR100-LT，FOOD101-LT和ImageNet127数据集上分别相对现有方法提高了12.8％，13.6％和16.7％的表现。

Nov, 2022

同时对一切进行对齐、蒸馏和增强以进行不平衡半监督学习

这篇研究提出了一种名为ADALLO的三方案框架，可解决长尾半监督学习中的类别不平衡问题，其中包括一个灵活的分布对齐机制、一个软一致性正则化机制和一个扩展未标记集的架构。该框架在不同程度的类别不平衡，不同数量的标记数据和分布不匹配的情况下在几个基准数据集上进行了评估，并展示了在大分布不匹配的情况下提高不平衡半监督学习表现的显著成果。

Jun, 2023

三个头胜过一个：长尾半监督学习的互补专家

我们提出了一种名为CPE的新方法，通过训练多个专家来解决长尾半监督学习中标签不平衡和未标记数据分布未知的问题，并引入CPE的类别批量归一化来避免特征分布不匹配造成的性能下降。在CIFAR-10-LT、CIFAR-100-LT和STL-10-LT数据集基准上，CPE取得了最先进的性能，例如在CIFAR-10-LT上，与基线相比，CPE将测试准确率提高了超过2.22％。

Dec, 2023

不平衡半监督学习的两次类别偏差校正

通过引入一种名为TCBC的新方法，我们解决了传统半监督学习中的两个挑战：训练样本的不平衡分布导致模型偏向某些类别，以及未标记样本的分布未知且可能与已标记样本不同，在训练过程中进一步导致偏向类别的伪标签。我们通过利用参与训练样本的类别分布估计来纠正模型，使其学习在类别平衡先验下的样本后验概率，从而减轻模型固有的类别偏差。在此基础上，我们还估计了训练过程中当前模型参数的类别偏差，对未标记样本的伪标签进行二次修正，以尽量使不同类别的未标记样本的伪标签分配公平。通过对CIFAR10/100-LT、STL10-LT和大规模长尾数据集SUN397的大量实验，我们提供确凿证据，证明我们提出的TCBC方法可靠地提升了类别不平衡的半监督学习性能。

Dec, 2023

BEM：长尾半监督学习的均衡和熵引导混合方法

本文介绍了一种平衡和基于熵的混合（BEM）方法，以重新平衡长尾半监督学习中的类分布，并通过数据混合改善长尾半监督学习，实验证明BEM显著提高了各种长尾半监督学习框架，在多个基准测试中达到了最先进的性能。

Apr, 2024

长尾半监督学习中提升双重训练的一致性

通过Boosting cOnsistency in duAl Training (BOAT)这种新颖的简单方法，在类别分布不匹配的情况下，提高了长尾半监督学习（LTSSL）算法在各种标准的LTSSL基准测试中的性能和测试精度。

Jun, 2024