自我监督学习(SSL)作为应对深度神经网络(DNNs)中有限标记数据挑战的一种有前途的解决方案,具有可扩展性潜力。本研究全面探索了 SSL 在各种数据增强中的行为,揭示了它们在塑造 SSL 模型性能和学习机制方面的关键作用。利用这些见解,我们提出了一种集成先验知识的新学习方法,旨在减少对大量数据增强的需求,从而增强学习表示的有效性。尤其值得注意的是,我们的发现表明,富含先验知识的 SSL 模型表现出较小的纹理偏差,对快捷方式和增强技术的依赖减弱,并且对自然和对抗性破坏具有改进的鲁棒性。这些发现不仅为 SSL 研究指明了新的方向,而且为提高 DNN 性能、减轻对大量数据增强的要求,从而增强可扩展性和实际问题解决能力方面铺平了道路。
Apr, 2024
自监督学习在生成的潜在变量模型和对比方法的框架下,提出了一种能够改善性能、实现任务无关性表示的方法。
Feb, 2024
本文对自我监督学习的理论与实践中被忽视的问题进行了分析,阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响,并为自我监督学习的从业者指出了一些有价值的见解。
Feb, 2023
我们提出了一种使用合成数据集来训练半监督学习模型的方法,该方法通过使用基于生成式基础模型训练的合成数据集来替代真实的未标记数据集,并证明了在极少标记数据集的情况下,合成样本比真实未标记数据更有效地提升性能。
Sep, 2023
本文研究了自监督学习中编码器和映射器的关系,发现数据增强策略的增加会导致映射器变得更加不变,从而学习将数据投影到低维空间中,具有理论和实验结果的几何学解释。
May, 2022
本文深入分析了自监督学习的机制以及其对表示学习的影响,揭示了自监督学习在样本聚类方面的潜在驱动作用,同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系,并且这种对齐关系随着训练和网络深度的加深而不断增强,这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。
May, 2023
介绍了自监督学习在图像领域的应用,包括贡献和历史视角,并提出了一些有前途的研究方向。
自我监督学习 (SSL) 是一种有效的方法,可以从大规模无标签数据中学习表示,对时间序列分析显示出有希望的结果。本文从对比和生成两个主要流派对比研究了时间序列中的自我监督表示学习。我们首先介绍了对比和生成 SSL 的基本框架,并讨论了如何获得指导模型优化的监督信号。然后,我们分别为每种类型实现了经典算法 (SimCLR vs. MAE),并在公平的环境中进行了比较分析。我们的结果提供了每种方法的优势和劣势的见解,并为选择合适的 SSL 方法提供了实用的建议。我们还讨论了我们研究结果对更广泛的表示学习领域的影响,并提出了未来的研究方向。所有的代码和数据都在 https://github.com/DL4mHealth/SSL_Comparison 发布。
Mar, 2024
自我监督学习的广义性理论定义及新型 GeSSL 框架的提出,能够在数据稀缺和真实世界中实现优越性能。
May, 2024
本文通过广泛的实验和理论分析,系统研究了在数据集不平衡的情况下自监督学习的表现,并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征,进而提出了一种新的加权正则化技术,显著提高了 SSL 表示的质量。
Oct, 2021