MILAN: 基于语言辅助表征的掩蔽图像预训练

Aug, 2022

MILAN: 基于语言辅助表征的掩蔽图像预训练

MILAN: Masked Image Pretraining on Language Assisted Representation

Zejiang Hou, Fei Sun, Yen-Kuang Chen, Yuan Xie, Sun-Yuan Kung

TL;DR本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Abstract

self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order

self-attention transformer models masked autoencoders weakly supervised image pretraining semantic signals

发现论文，激发创造

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

利用标题注释学习视觉表征

使用图像和标题的联合信息进行预训练可提高图像表征能力，该方法通过 image-conditioned masked language modeling（ICMLM）任务来实现，训练出的表征能够成功应用于多种目标任务。

Aug, 2020

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

自监督表示学习的上下文自编码器

本研究提出一种基于模型对模糊图像的建模方法，即上下文自编码器（CAE），用于自我监督的表示预训练，其中引入了一种对齐约束，以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的 MIM 方法，我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现，我们证明了我们的 CAE 的有效性。

Feb, 2022

MILES: 注入语义来实现视频文本检索的视觉 BERT 预训练

本文应用了基于遮蔽的视觉建模（Masked visual modeling）技术在双编码器（dual-encoder）架构下进行视频文本预训练，并利用额外的视频编码器作为 “tokenizer” 去产生预测目标，并通过在空间和时间维度上进行推理来得到修正的视觉特征，以此提高局部视觉特征和跨模态对齐性，在四个数据集上均优于最先进的文本至视频检索方法。

Apr, 2022

MST：遮蔽式自监督变压器用于视觉表示

本文提出了 MST 方法，它可以显式捕捉图像的局部上下文并保留全局语义信息，在密集预测任务上有更好的性能，在多个数据集上得到验证，并优于同等时期的监督方法和其可比的变体 DINO。

Jun, 2021

表面遮罩自编码器：供大脑皮层成像数据的自监督

本研究通过使用自监督学习以及具有表面网格的视觉转换器架构，构建了模型以模拟皮层结构，进而实现对皮层表面的学习。通过在较大数据集上进行预训练，可以获得强大的表示能力，用于在数据少的情景下进行微调，而在皮层表型回归任务中，预训练可以带来 26% 的性能提升和 80% 的更快收敛速度。

Aug, 2023

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024