深度半监督学习算法的实际评估
本研究綜合研究了從預先訓練模型開始使用半監督學習方法,探討在不同條件下,如訓練策略,架構選擇和數據集等方面的表現,得出半監督學習技術對從預訓練模型開始訓練的模型的提升效果較使用隨機初始化的模型來的小,而當預訓練模型的源數據域與目標任務的數據域存在明顯差異時,SSL方法的提升效果明顯提高的結果。
Dec, 2018
RealMix是一个半监督学习算法,可解决传统算法在标记数据和非标记数据分布不一致时表现不佳的问题,并在有限的数据和计算资源下取得了优异的结果。
Dec, 2019
本篇研究评估了半监督学习在存在严重类别不平衡和含有新类别图像的真实数据集上的有效性。研究结果表明最近提出的半监督学习方法可以利用不同类别的数据提高性能,但相较于迁移学习仍然表现不足。此外,本文证明在迁移学习中,现有的半监督学习方法在存在不同类别数据时往往是有害的。因此,标准的微调加蒸馏自训练是最健壮的方法。这些研究结论说明,对真实数据集的半监督学习可能需要不同于文献中普遍使用的方法。
Apr, 2021
本文研究了在利用半监督学习算法时,不同子集人群的性能变化问题,发现使用半监督学习算法时,更强的基准组比更弱的基准组更容易受益,而对于性能原本就比较低的基准组,可能还会观察到性能下降,进而提出了两个新的评估指标。
Oct, 2021
本文提出了一种新的半监督学习方法DP-SSL,采用创新的数据编程(DP)方案为无标签数据生成概率标签,通过自动生成标签函数并解决不同标签之间的冲突,成功缓解了有限标签数据的问题,实验证明DP-SSL可以为无标签数据提供可靠标签和更好的分类性能。
Oct, 2021
提出一种去偏移的方法,适用于多数深度半监督学习方法,并提供了简单的理论保证和推广误差界限,以在各种情境中提供更好的模型校准,同时说明了流行的SSL方法的直觉解释。
Mar, 2022
本文提出一种基于伪标签的半监督学习方法,能够处理open-world SSL问题,并通过样本不确定性和类别分布先验知识等手段,为已知和未知类别的未标记数据生成可靠的类别分布感知型伪标签。该方法在多种常用数据集上表现良好,特别是在CIFAR-100,ImageNet-100和Tiny ImageNet数据集上的表现显著优于现有的最先进技术。
Jul, 2022
我们提出了一种使用合成数据集来训练半监督学习模型的方法,该方法通过使用基于生成式基础模型训练的合成数据集来替代真实的未标记数据集,并证明了在极少标记数据集的情况下,合成样本比真实未标记数据更有效地提升性能。
Sep, 2023
通过分析合成图像的问题,本文提出了一种新的SSL方法RSMatch来解决混合真实和合成图像对SSL的影响问题,并通过实验证明RSMatch能够更好地利用未标记图像中的合成数据来提高SSL性能。
May, 2024
自我监督学习方法是一种机器学习方法,通过解决预设任务,通过数据本身提供监督,从而避免了对外部标签的需求,并能够有效利用大量廉价无标签数据进行模型训练,从而显著降低了昂贵或无法获取标签的模型训练成本。本研究主要针对自我监督学习方法中的评估协议进行研究,评估表征质量,并预测不同类型数据集上不同下游任务的性能表现,发现基于领域内的线性/kNN探测协议是最好的普适性预测器,进一步研究了批归一化的重要性以及对不同类型数据集领域转移的鲁棒性的评估,同时对区分性和生成性自我监督方法之间的关系进行了挑战,并发现它们之间的性能差异大部分可以通过模型的改变来解释。
Jul, 2024