DropPos: 基于重构被删除位置的预训练视觉变换器

Sep, 2023

DropPos: 基于重构被删除位置的预训练视觉变换器

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tong Wang...

TL;DR对于 Vision Transformers 来说，Droppos 是一种新颖的自我监督任务，它通过增强位置感知能力来提升模型性能。Droppos 通过随机丢弃一部分位置嵌入，根据视觉外观分类具体位置，采用位置平滑和注意力重构策略来解决类别相似性问题，实验结果表明 Droppos 在各类基准测试上表现出色，与现有的自我监督方法相比具有竞争力。

Abstract

As it is empirically observed that vision transformers (ViTs) are quite insensitive to the order of input tokens, the need for an appropriate self-supervised pretext task that enhances the location awareness of V

vision transformers droppos self-supervised position smoothing spatial reasoning abilities

发现论文，激发创造

定位预测作为一种有效的预训练策略

本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略，可以提高 NLP、语音和视觉领域的性能，并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。

Jul, 2022

使用有效接受字段理解视觉变换器的高斯注意偏差

本研究提出了一种使用高斯注意偏差来指导位置嵌入的方法，以提高视觉转换器（ViTs）在图像分类、目标检测和语义分割等任务中的性能。研究表明，使用这种方法不仅有助于 ViT 理解图像，还提高了在各种数据集上的性能。

May, 2023

配置数据增强以减少视觉 Transformer 中位置嵌入的方差偏移

我们提供了关于 Vision Transformers 中数据增强的问题以及正确的配置，以消除方差偏移的副作用，并通过实验证明采用我们的准则与当前数据增强配置相比能够提高 Vision Transformers 的性能。

May, 2024

LookHere: 有向注意力的视觉 Transformer 进行泛化和外推

我们提出了一种名为 LookHere 的新方法，用于限制 2D 注意力掩码中的固定视野的注意力头，提供平移等变性，确保注意力头的多样性，并限制注意力头在外推时面临的分布偏移，从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageNet 数据集上进行了测试，结果显示 LookHere 在高分辨率图像分类任务中表现优于当前位置编码方法 2D-RoPE。

May, 2024

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

$E (2)$- 等变视觉转换器

本文介绍了一种利用新型有效的位置编码操作符来设计 Group Equivariant Vision Transformer（GE-ViT）模型来解决 Vision Transformer（ViT）模型中的内在等变性学习问题，通过实验在标准基准数据集上得出 GE-ViT 模型比不等变自注意力网络性能更好的结论。

Jun, 2023

具有渐进采样的视觉 Transformer

本研究提出一种迭代和渐进式采样策略，以定位具有区分性的区域，并与 Vision Transformer 结合起来，形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域，从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8％的 top-1 准确性（使用约 4 倍的参数和 10 倍的运算次数）。

Aug, 2021

去噪视觉变换器

我们提出了一种噪声模型和去噪方法来解决 Vision Transformers 中存在的网格伪影问题，该方法能有效改善模型在语义和几何任务中的性能。

Jan, 2024

使视觉 Transformer 真正具有 Shift-Equivariant 性质

提出改进的模块设计，使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性，并在三个不同数据集上实现了有竞争力的性能表现。

May, 2023

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022