细粒度自监督学习的开集核心集采样

CVPRMar, 2023

细粒度自监督学习的开集核心集采样

Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning

Sungnyun Kim, Sangmin Bae, Se-Young Yun

TL;DR本研究介绍了一种基于自我监督学习的算法 SimCore，它可以通过使用无标签的大规模数据集来提高深度学习模型的表征学习性能，从而应用于精细的任务，解决现实世界中需要专家知识进行注释的难题。

Abstract

deep learning in general domains has constantly been extended to domain-specific tasks requiring the recognition of fine-grained characteristics. However, real-world applications for fine-grained tasks suffer fro

deep learning self-supervised learning fine-grained tasks pretraining simcore algorithm

发现论文，激发创造

OpenCoS：用于处理开放集未标记数据的对比半监督学习

本文提出了一个基于自我监督视觉表征学习框架的 OpenCoS 框架，可以处理开放式半监督学习的情况，通过利用伪标签和软标签来解决现有半监督方法中的失效问题，并通过大量的实验证明了其有效性。

Jun, 2021

一种用于开放集半监督学习的多任务课程框架

本文提出了一种多任务课程学习框架，旨在解决开放集合 SSL 中的未知样本问题，通过同时训练模型的正常分类能力和未知样本的检测能力，成功地消除了未知样本的影响。

Jul, 2020

智能地利用开放数据的强韧半监督学习

通过学习理论的角度，我们提出了一种智能选择开放数据集的半监督学习框架 WiseOpen，通过基于梯度方差的选择机制选择友好子集来提高模型的 ID 分类能力，并且提出了两个实际变体 WiseOpen 通过采用低频率更新和基于损失的选择来降低计算开销，广泛实验证明 WiseOpen 的有效性超过了现有技术水平。

May, 2024

关于半监督学习在细粒度分类中的真实评估

本篇研究评估了半监督学习在存在严重类别不平衡和含有新类别图像的真实数据集上的有效性。研究结果表明最近提出的半监督学习方法可以利用不同类别的数据提高性能，但相较于迁移学习仍然表现不足。此外，本文证明在迁移学习中，现有的半监督学习方法在存在不同类别数据时往往是有害的。因此，标准的微调加蒸馏自训练是最健壮的方法。这些研究结论说明，对真实数据集的半监督学习可能需要不同于文献中普遍使用的方法。

Apr, 2021

朝着真实的半监督学习

本文提出一种基于伪标签的半监督学习方法，能够处理 open-world SSL 问题，并通过样本不确定性和类别分布先验知识等手段，为已知和未知类别的未标记数据生成可靠的类别分布感知型伪标签。该方法在多种常用数据集上表现良好，特别是在 CIFAR-100，ImageNet-100 和 Tiny ImageNet 数据集上的表现显著优于现有的最先进技术。

Jul, 2022

DeepCore: 深度学习中数据子集选择的全面库

本文提出 DeepCore 库，并对目前主要的 coreset 选择方法在 CIFAR10 和 ImageNet 数据集上进行了实证研究，结果表明，虽然各种方法在某些实验设置上具有优势，但随机选择仍然是一个强有力的基准。

Apr, 2022

RETRIEVE：高效和鲁棒的半监督学习中的核心子集选择

本文提出 RETRIEVE：一种半监督学习的特征选择框架，通过解决混合的离散 - 连续二层优化问题以使选择的特征组合最小化标记数据的损失。实验结果表明，使用 RETRIEVE 能够显著提高半监督学习的运算速度并在存在 OOD 数据和不平衡数据时具有更好的性能，是一个高效的特征选择框架。

Jun, 2021

元优化合成样本的生成半监督学习

我们提出了一种使用合成数据集来训练半监督学习模型的方法，该方法通过使用基于生成式基础模型训练的合成数据集来替代真实的未标记数据集，并证明了在极少标记数据集的情况下，合成样本比真实未标记数据更有效地提升性能。

Sep, 2023

FaceCoresetNet: 人脸集合识别的可微分核集

基于集合的人脸识别中，本研究通过不同 iable 的 farthest-point 采样选择问题的核心集方法，构建了一个同时平衡质量和多样性策略的模型，进而在 IJB-B 和 IJB-C 数据集上取得了新的最佳表现。

Aug, 2023

基于重复学习的在线核心集选择

本文介绍了一个在线核心集选择算法（Online Coreset Selection），通过该算法可以从数据集中选择最具代表性和信息量最大的样本，从而来改善连续学习过程中的遗忘问题，提高模型的效果和效率。该算法在多个标准、不平衡和有噪声的数据集上得到了验证，并且相对于其他算法具有更好的抗遗忘特性和样本利用率。

Jun, 2021