基于自监督预训练 Vision Transformer 的单目机器人导航

Mar, 2022

基于自监督预训练 Vision Transformer 的单目机器人导航

Monocular Robot Navigation with Self-Supervised Pretrained Vision Transformers

Miguel Saavedra-Ruiz, Sacha Morin, Liam Paull

TL;DR使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Abstract

In this work, we consider the problem of learning a perception model for monocular robot navigation using few annotated images. Using a Vision Transformer (ViT) pretrained with a label-free self-supervised method

perception model monocular robot navigation vision transformer image segmentation visual servoing agent

发现论文，激发创造

MonoViT：基于视觉 Transformer 的自监督单目深度估计

提出了一种新的基于 Vision Transformers（ViTs）和自监督单眼深度估计的框架 MonoViT，通过结合普通卷积和 Transformer 模型，能够在局部和全局推理，可以更准确地预测深度，达到了更高水平的性能，证明比其他数据集具有更好的泛化能力。

Aug, 2022

自监督 Vision Transformer 的蒸馏用于弱监督少样本分类与分割

我们提出了一种利用自监督预训练的视觉 Transformer（ViT）来解决弱监督少样本图像分类和分割的方法，通过自注意力机制，利用自监督 ViT 的标记表示，通过独立的任务头预测分类和分割结果。实验结果表明，我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割，只使用图像级别标签，并且在少量或无像素级标签的情况下表现出显著的性能提升。

Jul, 2023

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

自监督预训练和微调用于单目深度和视觉里程计

我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法，分为两个步骤：第一步是使用跨视角补全目标（CroCo）进行通用预训练以学习 3D 几何，然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变换器、密集预测变换器和适配器等标准组件达到最先进的性能。通过在六个基准数据集上进行评估，包括静态和动态、室内和室外、合成和真实图像，我们证明了我们提出方法的有效性，尤其在深度预测任务中超过了最先进的方法。

Jun, 2024

自我监督轻量级视觉 Transformer 的深入探讨

本文主要通过使用基于掩码图像建模的 MAE pre-training 方法，即 MAE-lite，来为轻量级 ViTs 的 pre-training 提供配方，并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比，分析和表明了这种 pre-training 的影响，揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用，并开发了一个 distillation 策略来提高 pre-trained representations，从而实现更好的性能。

May, 2022

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023

使用 Vision Transformers 对检测迁移学习进行基准测试

本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术，使用五种 ViT 初始化方法进行实验比较，结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进，随着模型大小的增加，这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。

Nov, 2021

基于任务内互注意力的视觉 Transformer 模型用于少样本学习

基于 Vision Transformer (ViT) 架构，本文提出了一种用于少样本学习的任务内互注意方法，通过交换支持集和查询集的类别标记与图像片段标记，实现了互注意，从而加强了类内表征，并促进了同一类别样本之间的相似性。与最先进的基准方法相比，在五个常见的少样本分类基准任务中，本文提出的框架在 5-shot 和 1-shot 情况下表现出的性能更好，同时具有简单、高效的计算能力。

May, 2024