PeCo: 基于感知编码本的视觉 Transformer BERT 预训练

AAAINov, 2021

PeCo: 基于感知编码本的视觉 Transformer BERT 预训练

PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang...

TL;DR本文探讨了 BERT 预训练视觉变换器的更好预测目标，提出了学习感知预测目标的想法，并在 dVAE 训练过程中实现感知相似性的强制，使用自监督变换模型进行深度特征提取，最终得到学习到更好的视觉 token，取得了在多个任务上优于 BEiT 的性能表现。

Abstract

This paper explores a better prediction target for bert pre-training of vision transformers. We observe that current prediction targets disagree with human perception judgment.This contradiction motivates us to learn a perceptual prediction target. We argue that perceptually similar im

bert pre-training perceptual prediction visual tokens deep feature extraction transfer performance

发现论文，激发创造

BEiT: 图像 Transformer 的 BERT 预训练

本研究介绍了一种名为 BEiT 的自监督视觉表示模型，使用双向编码器表示图像转换器并进行了预训练，效果显著。

Jun, 2021

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

自我监督轻量级视觉 Transformer 的深入探讨

本文主要通过使用基于掩码图像建模的 MAE pre-training 方法，即 MAE-lite，来为轻量级 ViTs 的 pre-training 提供配方，并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比，分析和表明了这种 pre-training 的影响，揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用，并开发了一个 distillation 策略来提高 pre-trained representations，从而实现更好的性能。

May, 2022

训练端到端的视觉语言变换器的实证研究

该研究展示了一个名为 METER 的多模态端到端 Transformer 框架，研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能，通过在多个维度上对模型设计进行分解，并使用预训练的增强模型，达到了相对于基于区域特征的模型更好的性能，即在 VQAv2 测试数据集上取得了 77.64% 的准确率，超过了以前的最优模型，并且在最佳情况下可以达到 80.54％的准确率。

Nov, 2021

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

通过 MAE + 对视觉变换器进行预训练的对抗位置嵌入

本文提出了一种基于 Adversarial Positional Embedding (AdPE) 方法的无监督学习方式，旨在完善预测任务以避免学习仅适用于下游任务的低级特征，实验结果表明，该方法准确性能优于传统无监督学习以及不使用额外模型，数据集的视觉变换和不同网络架构等条件。

Mar, 2023