显式地将一般性建模到自监督学习中
本文深入分析了自监督学习的机制以及其对表示学习的影响,揭示了自监督学习在样本聚类方面的潜在驱动作用,同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系,并且这种对齐关系随着训练和网络深度的加深而不断增强,这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。
May, 2023
本文对自我监督学习的理论与实践中被忽视的问题进行了分析,阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响,并为自我监督学习的从业者指出了一些有价值的见解。
Feb, 2023
我们提出了一种使用合成数据集来训练半监督学习模型的方法,该方法通过使用基于生成式基础模型训练的合成数据集来替代真实的未标记数据集,并证明了在极少标记数据集的情况下,合成样本比真实未标记数据更有效地提升性能。
Sep, 2023
自我监督学习 (SSL) 是一种有效的方法,可以从大规模无标签数据中学习表示,对时间序列分析显示出有希望的结果。本文从对比和生成两个主要流派对比研究了时间序列中的自我监督表示学习。我们首先介绍了对比和生成 SSL 的基本框架,并讨论了如何获得指导模型优化的监督信号。然后,我们分别为每种类型实现了经典算法 (SimCLR vs. MAE),并在公平的环境中进行了比较分析。我们的结果提供了每种方法的优势和劣势的见解,并为选择合适的 SSL 方法提供了实用的建议。我们还讨论了我们研究结果对更广泛的表示学习领域的影响,并提出了未来的研究方向。所有的代码和数据都在 https://github.com/DL4mHealth/SSL_Comparison 发布。
Mar, 2024
本文综述了基于自监督学习技术在图数据中的应用,提出了一个统一的数学框架,并将这些方法根据预文本任务的目标分为四类,并描述了在各个研究领域中的应用及所采用的数据集,评估基准,性能比较和开源图形 SSL 代码。
Feb, 2021
本文通过广泛的实验和理论分析,系统研究了在数据集不平衡的情况下自监督学习的表现,并通过半合成实验验证了 SSL 学习了与标签无关但可转移的特征,进而提出了一种新的加权正则化技术,显著提高了 SSL 表示的质量。
Oct, 2021
我们提出了 SSLMem,一个用于在自监督学习中定义记忆化的框架,通过对数据点及其增强视图返回的编码器之间表示的对齐差异进行比较,揭示了大规模数据集和强增强的自监督学习中存在高度记忆化的数据点,并且这种记忆化对于编码器在不同下游任务中实现更高泛化性能是必不可少的。
Jan, 2024