用于密集预测的视觉Transformer适配器

May, 2022

用于密集预测的视觉Transformer适配器

Vision Transformer Adapter for Dense Predictions

Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu...

TL;DR本文提出一种基于适配器的简单而强大的密集预测任务适配器，用于解决Vision Transformer (ViT)在密集预测中的性能较差问题，并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中，其中ViT-Adapter-L模型在不使用额外数据的情况下，在COCO test-dev数据集上实现了state-of-the-art的性能。

Abstract

This work investigates a simple yet powerful adapter for vision transformer (ViT). Unlike recent visual transformers that introduce vision-specific →

发现论文，激发创造

基于Transformer的目标检测

本文研究使用纯Transformer模型实现复杂视觉任务中的目标检测，发现Vision Transformer作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果，而且能够保持更高的图像分辨率。

Dec, 2020

一个简单的单尺度视觉Transformer用于物体定位和实例分割

本文提出了一种简单的视觉Transformer设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

适应形态：为可扩展视觉识别调整视觉变换器

提出了一种叫做“AdaptFormer”的方法，可将预训练的视觉Transformer模型快速适应于多个图像和视频识别任务中，在不更新原预训练参数的情况下，只增加不到2％的额外参数，就能显著提高模型的可迁移性和表现

May, 2022

卷积旁路更好的视觉Transformer适配器

本文提出使用卷积旁路（Convpass）在预训练的Vision Transformer中作为适应模块，这个方法只需要少量可训练参数即可适应大型Vision Transformer，其表现优于当前的适应模块，并证明为了适应视觉模型需要定制视觉定向的适应模块。

Jul, 2022

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

可解释感知视觉变换器

我们引入了一种新的培训过程，通过训练促进模型的可解释性，从而解决Vision Transformers在解释性方面的不足，并提出了IA-ViT模型，通过单头自注意机制提供忠实的解释，有效地应用于几个图像分类任务。

Sep, 2023

稠密视觉Transformer的选择性特征适配器

本文提出了一种有效的方法，即选择性特征适配器（SFA），以解决精细调整预训练变压器模型中庞大的参数的成本/存储问题，并在各种密集任务中实现了最先进的性能，比其他适配器模块更出色。

Oct, 2023

ViTs随处可见：综合研究展示不同领域中的视觉Transformer

Transformer设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于Transformer的Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

小而强大：使用小适配器对ViTs进行微调

通过引入适配器逐步减小其尺寸的方法，我们提出了MiMi训练框架，该框架能够在降低计算和存储成本的同时保持高性能，通过适配器层间神经元重要性的比较来自动估计每个适配器的隐藏维度，我们的方法在三个数据集基准DomainNet、VTAB和Multi-task上优于现有方法，寻找准确性和训练参数之间的最佳权衡。

Nov, 2023

ViT-CoMer: 具有卷积多尺度特征交互的视觉Transformer用于密集预测

ViT-CoMer是一种纯粹、无需预训练并具有特征增强的ViT骨干网络，其通过引入卷积多尺度特征相互作用和CNN-Transformer双向融合交互模块，在处理密集预测任务时具有较优的性能。

Mar, 2024