大数据时代的小样本学习
本文深入分析了自监督学习的机制以及其对表示学习的影响,揭示了自监督学习在样本聚类方面的潜在驱动作用,同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系,并且这种对齐关系随着训练和网络深度的加深而不断增强,这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。
May, 2023
本文提出一种新的 SSL 算法,通过引入转移学习和自主监督来初始化数据的表示,再利用新算法,交替拟合有标签和无标签点以降低过拟合和避免标签和无标签损失平衡的问题。实验证明,该方法在标准基准测试中表现优异,特别是在从其他任务或数据集中细化时,效果更佳。
May, 2019
在相对有限 / 受约束的数据集中,通过比较实验评估了现代视觉自监督学习方法的有效性,发现针对特定领域的下游任务,在领域内的低数据量自监督预训练优于在通用数据集上进行大规模预训练,为该领域中各类自监督学习方法的性能提供了有价值的见解,并提出了直接的未来研究方向。
Apr, 2024
通过实验和分析,研究了自监督学习对于小样本学习的有效性,证明自监督学习可以降低元学习中相对误差率 4%-27%,对元学习器有更多的改进,尤其是在训练集更小或任务更具挑战性的情况下。但在元学习和自监督学习使用的图像分布不同时,自监督学习有可能会降低元学习器的表现。最后,作者提出一种方法,可以从大量的通用未标记图片中自动选择适合特定数据集的自监督学习样本,以进一步提高元学习器的性能。
Oct, 2019
通过 Positive Active Learning 策略,可以扩展自我监督学习(SSL)到在线学习,半监督和监督学习。该框架可嵌入先验知识并提供主动学习框架,从而实现低成本对数据集的注释。
Mar, 2023
我们通过引入额外的熵损失构建了一个分类器,用于对来自已知和未知类别的数据进行分类,从而改进了现有的半监督学习方法在已知和未知类别的分类中的表现。通过在 CIFAR-100 和 STL-10 两个基准图像分类数据集上的实验证明,我们相对于现有的 SSL、开放集合 SSL 和开放世界 SSL 方法取得了巨大的改进。当标记数据非常有限(每个类别 1-25 个标记示例)时,进步最为显著。
Aug, 2023
本文提出一种基于伪标签的半监督学习方法,能够处理 open-world SSL 问题,并通过样本不确定性和类别分布先验知识等手段,为已知和未知类别的未标记数据生成可靠的类别分布感知型伪标签。该方法在多种常用数据集上表现良好,特别是在 CIFAR-100,ImageNet-100 和 Tiny ImageNet 数据集上的表现显著优于现有的最先进技术。
Jul, 2022
本文提出了一个 semi-supervised learning (SSl) 的新方法:Mixture of Expert/Imitator Networks,该模型通过利用大量未标记数据来训练 imitator 网络模拟 expert 网络的标签分布,从而提高 text classification 任务的性能,实验结果表明该方法可适用于多种深度神经网络模型,并且性能随未标记数据的增加而提高。
Oct, 2018