自拍:自监督图像嵌入预训练
提出了一种自监督学习框架 ——Masked Siamese Networks (MSN),用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配,可以进行自监督预训练,该策略特别适用于 Vision Transformer 模型,在提高联合嵌入结构的可扩展性的同时,产生高语义级别的表示,并在低样本图像分类方面表现竞争性,对 ImageNet-1K 数据集上,使用基础 MSN 模型以仅有 5000 个带注释的图像,达到了 72.4%的 top-1 准确度,并且只有 1%的 ImageNet-1K 标签,就取得了 75.7%的 top-1 准确度,创立了该基准测试的自监督学习的新的最佳成果。
Apr, 2022
本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN,通过嵌入语言监督来生成语义信息丰富的图像特征,通过实验证明,该方法在多项计算机视觉任务中优于现有方法。
Aug, 2022
本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。
Jun, 2023
我们提出了两种自监督预训练方法,即 Ext-PIE-Net 和 MM-SimCLR,通过采用现成的多模态仇恨言论数据和多个专门的预设任务实现了自监督学习,为模因分析提供了必要的复杂多模态表示学习,通过标签有效训练,在所有三个任务中性能优于基线并证实了我们的方法的泛化性。
Sep, 2022
研究使用自监督学习中的图像重构、遮蔽图像建模和拼图等方法来训练物体检测转换器的编码器,以实现预训练和多任务学习,并在 iSAID 数据集上进行了初步实验。
May, 2022
在计算机视觉中,自我训练是一种使用额外数据的替代方法,与常用的预训练模型初始化方法相比具有更强的通用性和灵活性,并提供了新的见解,包括:1)更强的数据增强和更多标记数据会进一步降低预训练的价值,2)自我训练在低数据和高数据环境下使用更强的数据增强时都有帮助,3)在预训练有效的情况下,自我训练能够进一步提高对象检测的准确性。
Jun, 2020
引入对比检测算法的自监督目标,通过在图像增强中识别物体水平特征提取富有学习信息的信号,实现高效的自监督预训练,拥有多种下游任务的领先转移精度。在 ImageNet 预训练模型表现与大型自监督系统 SEER 相当的同时,需要少至 10 倍的预训练数据量,最终该目标还能轻松应对更复杂的图像。
Mar, 2021
本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练,在多种机器人任务和实体上表现出了较高效果,并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练,展示了对于机器人学习的视觉预培训的规模化提升的好处。
Oct, 2022
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图像检索和语义分割。
Dec, 2023