自监督视觉 Transformer 的损失可视化

May, 2024

自监督视觉 Transformer 的损失可视化

Visualizing the loss landscape of Self-supervised Vision Transformer

Youngwan Lee, Jeffrey Ryan Willette, Jonghee Kim, Sung Ju Hwang

TL;DR利用损失景观的方法调查了 Masked autoencoder 在自监督的 ViT 训练中对更好的泛化能力和梯度修正的作用。

Abstract

The masked autoencoder (MAE) has drawn attention as a representative self-supervised approach for masked image modeling with vision transformers<

masked autoencoder self-supervised approach vision transformers gradient correction loss landscape

发现论文，激发创造

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

统一蒙版：使用局部信息实现金字塔视觉 Transformer 的 MAE 预训练

本文提出了统一遮蔽（Uniform Masking，UM）技术，将其成功应用于金字塔式视觉变换器（Pyramid-based ViTs）的 MAE 预训练中，命名为 UM-MAE。UM 技术包括均匀抽样（Uniform Sampling，US）和辅助遮蔽（Secondary Masking，SM），大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。

May, 2022

如何理解掩蔽自编码器

本文第一次提出了一种统一的理论框架，用数学方法解释 MAE 的强大表现，说明其基于补丁的注意力方法，并使用操作符理论阐明了 MAE 成功的主要原因。

Feb, 2022

从局部对比角度理解掩码自编码器

通过对编码器 - 解码器架构以及局部对比学习的分析，本文探索了 Masked AutoEncoder 的机制，并将其改进为一种局部区域级对比学习形式，为改进自监督学习框架提供了更全面和灵活的解释。

Oct, 2023

掩码自编码器在视觉和其他领域的自监督学习中的调查

本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述，着重于介绍其在视觉模式识别领域中的应用，包括历史发展、最新进展以及对各种应用的影响。

Jul, 2022

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023

利用分层潜变量模型理解遮蔽自动编码器

本研究通过理论模型的建立及实验验证，提供了在 Masked autoencoder 框架下自监督学习的一些理论解释，并说明了其潜在局限性与未来改进方向。

Jun, 2023

基于拓扑和空间感知的遮蔽自编码器的自预训练用于 3D 医学图像分割

我们提出了一种扩展的 Masked Autoencoders (MAEs) 方法，用于自我预训练 3D 医学图像分割任务，通过引入新的拓扑损失、预测 3D 裁剪区域的位置以及与 Vision Transformers (ViTs) 同时进行预训练，实现对几何形状和空间信息的捕捉，并且在五个公开的 3D 分割数据集上进行了大量实验证明了我们方法的有效性。

Jun, 2024

ConvMAE：掩码卷积与掩码自编码器相遇

本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入，提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法，可以在保证计算效率的同时提高了分类和检测的准确率。

May, 2022