May, 2022

用于密集预测的视觉Transformer适配器

TL;DR本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决Vision Transformer (ViT)在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中ViT-Adapter-L模型在不使用额外数据的情况下,在COCO test-dev数据集上实现了state-of-the-art的性能。