SimPLE: 特征相似的伪标签利用用于半监督分类
提出了一种新的弱监督学习设置,称为 SU 分类,只需要相似数据对和未标记数据点,可以从 SU 数据中获得分类风险的无偏估计量,并证明其经验风险最小化器的估计误差达到最优参数收敛速率。通过实验证明了该方法的有效性。
Feb, 2018
在本文中,我们研究了一个广泛且重要的学习问题 —— 成对相似度学习(PSL)。我们提出了一种简单但令人惊讶的无代理方法 SimPLE,该方法在开集识别中能够很好地推广,应用于开集人脸识别、图像检索和说话人验证三个挑战性的 PSL 任务上,通过大规模基准实验结果表明我们的方法明显优于现有的最先进方法。
Oct, 2023
SimiS 是一种简单而有效的 SSL 算法,通过用伪标签补充数据以解决类别不平衡问题,在 CIFAR100-LT,FOOD101-LT 和 ImageNet127 数据集上分别相对现有方法提高了 12.8%,13.6%和 16.7%的表现。
Nov, 2022
提出基于伪标签生成的半监督图像分类方法,利用 mixup 增广和每个 mini-batch 至少有数量的有标注样本的限制解决了伪标签带来的过度拟合问题,并在多个数据集上取得了最新的结果。
Aug, 2019
本文提出一种半监督对比学习 (Semi-supervised Contrastive Learning,简称 SsCL) 的训练策略,将自监督学习中著名的对比损失与半监督学习中的交叉熵损失相结合,进而联合优化两个目标,并使用神经网络来实现。结果表明,SsCL 产生了更具有区分性的表示,并对于少样本学习非常有益。在使用 ResNet50 作为后端的 ImageNet 数据集上,SsCL 分别以 1% 和 10% 的标记样本获得了 60.2% 和 72.1% 的 top-1 精度,这比基线要好得多,也优于以前的半监督学习和自监督学习方法。
May, 2021
本文重新审视了伪标记的概念,提出了一种基于半监督学习的方法,通过将伪标记应用于无标签集中的样本,并利用已训练好的模型标记这些样本,然后迭代重复此过程来训练模型。本文通过实验证明,伪标记方法可以取得与现有最先进方法相媲美甚至更好的结果,并且更能抵御未知分布样本。作者指出采用学习课程原理以及在每个自我训练周期前重启模型参数是实现这一点的两个关键因素。在 CIFAR-10 数据集上,本文仅使用了 4,000 个标记样本,达到了 94.91% 的准确率,在 Imagenet-ILSVRC 数据集上,本文仅使用了 10%的标记样本,达到了 68.87%的 top-1 的准确率。
Jan, 2020
本文针对有限标注信息下的半监督学习进行研究,分析了当前应用最广的半监督学习方法 FixMatch 在这种情况下的表现和局限,提出了一种利用自监督学习方法提供训练信号以及优化伪标签筛选过程的方案,并在 STL-10 数据集上得到了显著提高。
Dec, 2021
本论文介绍了一种改进的算法,利用有标注数据和无标注数据的流形结构预测伪标签,在类之间平衡,并使用容量有限的分类器的损失值分布选择最干净的标签,以迭代方式改善伪标签的质量,从而在几个基准数据集上超越了现有技术结果,具有数据可用性与特征空间预处理的健壮性。
Dec, 2020
本文提出了一种新的半监督学习框架 SimMatch,该框架同时考虑语义相似性和实例相似性,并通过一致性正则化将这两种相似性转换为更可靠的匹配目标,实现了半监督学习任务的性能提升,特别是在 ImageNet 数据集上,1%和 10%标记示例的 Top-1 准确率均显着优于基线方法和以前的半监督学习框架。
Mar, 2022
本文提出了 SemCo 方法,该方法结合标签语义和联合训练来解决半监督学习中伪标记质量差的问题,该方法在各种 SSL 任务中实现了最先进的性能,例如使用 1000 个标记的样本的 Mini-ImageNet 数据集上提高了 5.6%的准确性。
Apr, 2021