视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn)对这些下游任务的影响进行系统级研究。基于我们的详细分析,我们提出了一个框架,将掩模图片建模和聚类作为预训练任务,这个框架在包括多类分类、多标签分类和语义分割在内的所有低样本下游任务中表现更好。此外,当在完整规模的数据集上测试模型时,我们在多类分类、多标签分类和语义分割中展示了性能提升。
Jun, 2024
引入对比检测算法的自监督目标,通过在图像增强中识别物体水平特征提取富有学习信息的信号,实现高效的自监督预训练,拥有多种下游任务的领先转移精度。在 ImageNet 预训练模型表现与大型自监督系统 SEER 相当的同时,需要少至 10 倍的预训练数据量,最终该目标还能轻松应对更复杂的图像。
Mar, 2021
本文提供了一种信息理论框架,从多个视角探究自监督学习的特性,并介绍了可以丢弃任务无关信息的任务相关自适应目标函数,为自监督学习的目标设计提供了更加广阔的空间。
Jun, 2020
研究人员对自监督预训练算法在视觉领域中的实用性进行了评估,发现可用标签数量的增加以及下游任务和训练数据属性的变化都会影响其效用,而线性评估与精调性能之间没有相关性。
Mar, 2020
本文提出一种新的自监督学习框架,可以解决在设计和比较不同任务、模型和数据域时的限制问题,通过这个框架设计一种新的自监督任务,在 PASCAL VOC 2007、ILSVRC12 和 Places 数据集上,取得了显著的最先进表现,并将自监督学习和监督学习之间的对象检测 mAP 误差从 5.9% 缩小到 2.6%。
May, 2018
本研究表明,在计算机视觉中,使用自监督学习获得的特征,在域泛化方面与或优于使用监督学习获得的特征,并引入了一个新的自监督预文本任务来预测对 Gabor 滤波器组的响应,使用多任务学习提高了域泛化性能。
提出了一种基于自监督学习的预训练方法,使用仅图像的人类中心数据对模型进行训练,通过学习关于 3D 和人体运动的先验知识,在一系列人体相关任务中优于现有的自监督预训练方法,并在模型基于和不基于模型的人体网格重建的精调任务上达到了最先进的性能。
Nov, 2023
本研究提出一种对物体在不同域中的识别问题采用监督学习和自监督学习方法相结合的多任务学习算法,通过学习对象形状,掌握空间定向和部件相关性等概念,证明该算法在域通用和适应性方面具有较高的竞争力。
Jul, 2020
本文提出了一种基于预训练和自监督方法的计算机视觉模型,该模型使用大量的数据自动构建一种多样的图像数据集,能够在各种任务和图像的情况下快速、高效地生成功能强大的视觉特征。
Apr, 2023
在计算机视觉中,自我训练是一种使用额外数据的替代方法,与常用的预训练模型初始化方法相比具有更强的通用性和灵活性,并提供了新的见解,包括:1)更强的数据增强和更多标记数据会进一步降低预训练的价值,2)自我训练在低数据和高数据环境下使用更强的数据增强时都有帮助,3)在预训练有效的情况下,自我训练能够进一步提高对象检测的准确性。