基于Transformer的目标检测

Dec, 2020

Toward Transformer-Based Object Detection

Josh Beal, Eric Kim, Eric Tzeng, Dong Huk Park, Andrew Zhai...

TL;DR本文研究使用纯Transformer模型实现复杂视觉任务中的目标检测，发现Vision Transformer作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果，而且能够保持更高的图像分辨率。

Abstract

transformers have become the dominant model in natural language processing, owing to their ability to pretrain on massive amounts of data, then transfer to smaller, more specific tasks via fine-tuning. The Vision

发现论文，激发创造

使用Transformer进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR模型概念简单且不需要专门的库。

May, 2020

一张图像胜过16*16个单词：规模下的图像识别变形金刚

本文研究使用Transformer代替CNN进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

视觉中的Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

ViDT：一种高效且有效的全Transformer目标检测器

本论文介绍了ViDT，一个将视觉和检测Transformers整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的Transformer解码器来提高检测性能。ViDT在Microsoft COCO基准数据集上的广泛评估结果表明，它在现有的完全基于Transformer的目标检测器中具有最佳的AP和延迟平衡，并且可以实现高扩展性的大型模型，其AP为49.2。

Oct, 2021

视觉Transformer综述

本文综述了超过一百种不同的视觉Transformer根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉Transformers在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

一个简单的单尺度视觉Transformer用于物体定位和实例分割

本文提出了一种简单的视觉Transformer设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

2020年代用于ConvNet（卷积神经网络）的神经网络

本研究重新审视设计空间，逐步将标准ResNet现代化为Vision Transformer的设计，发现了几个关键组件，并发现纯ConvetNets模型家族ConvNeXt可以在精度和可伸缩性方面与Transformer竞争，在ImageNet的top-1准确率方面达到了87.8％，并在COCO检测和ADE20K分割上优于Swin Transformer 。

Jan, 2022

一种可扩展、高效、有效的基于Transformer的物体检测器

本文介绍了Vision和Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022

使用视觉Transformer进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

ViTs随处可见：综合研究展示不同领域中的视觉Transformer

Transformer设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于Transformer的Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023