从自然不平衡伪标签中进行无偏学习
提出基于伪标签生成的半监督图像分类方法,利用 mixup 增广和每个 mini-batch 至少有数量的有标注样本的限制解决了伪标签带来的过度拟合问题,并在多个数据集上取得了最新的结果。
Aug, 2019
伪标记是一种使用少量标记样本来利用无标记数据的常用半监督学习技术。本研究提出了一种名为 DIPS 的数据特征化和选择框架,通过对学习动态的分析来改善伪标记方法,提高标记数据的质量,并展示了其在各种真实世界的表格和图像数据集上的应用和影响。综上所述,我们强调了在真实环境中数据为中心的伪标记方法的显著优势。
Jun, 2024
本文提出了一种基于偏差自适应分类器的伪标签半监督学习方法,通过引入一个偏差吸引器来自动补偿类别不平衡带来的偏差,从而提高了伪标签方法在类别不平衡情况下的性能。实验证明,该方法优于现有的基准方法。
Jul, 2022
本文重新审视了伪标记的概念,提出了一种基于半监督学习的方法,通过将伪标记应用于无标签集中的样本,并利用已训练好的模型标记这些样本,然后迭代重复此过程来训练模型。本文通过实验证明,伪标记方法可以取得与现有最先进方法相媲美甚至更好的结果,并且更能抵御未知分布样本。作者指出采用学习课程原理以及在每个自我训练周期前重启模型参数是实现这一点的两个关键因素。在 CIFAR-10 数据集上,本文仅使用了 4,000 个标记样本,达到了 94.91% 的准确率,在 Imagenet-ILSVRC 数据集上,本文仅使用了 10%的标记样本,达到了 68.87%的 top-1 的准确率。
Jan, 2020
该论文提出了一种简单且有效的无监督去偏差技术,该方法利用聚类算法在特征嵌入空间识别伪属性,然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示,以防止少数群体被忽视并达到最坏情况下的概括,实验证明其在多个标准基准测试数据集上具有出色的表现,甚至达到了有监督对照组的竞争精度。
Aug, 2021
该研究提出了一种利用信息论界限和特征对齐技术,将目标数据划分为伪标记子集和无标记子集以实现平衡的无监督域自适应方法,取得了比现有方法更好的性能表现。
Feb, 2022
本研究系统研究了类别不平衡的学习及其对标签使用的影响,理论和实证表明,类别不平衡的标签可以通过半监督或自监督方法来获得显著的改进,但是在训练分类器时,先经过自监督的预训练会更优秀。
Jun, 2020
通过基于密度的聚类算法提出伪标签课程表,通过高密度值子集进行早期训练,在后期使用低密度值的数据子集,进而改进网络生成伪标签的能力,提高模型的训练效果并实现最先进的性能
Aug, 2019
无监督领域适应的研究中,通过使用预训练网络进行多阶段伪标签优化程序,解决了无标签目标数据中的类别错位问题,证明了该简单方法在多个数据集上比复杂的最先进技术更有效。
Feb, 2024
该研究分析了基于伪标签的半监督学习算法之所以有效的理论原因,并比较了有标记数据与有适当初始模型的无标记数据两种情况下训练的模型的泛化误差,证明了在足够数量的无标记数据的情况下,基于伪标签的半监督学习算法可以收敛到最优误差上限,并给出了达到线性收敛率的采样复杂度下限。
Nov, 2022