ViDT：一种高效且有效的全Transformer目标检测器

Oct, 2021

ViDT：一种高效且有效的全Transformer目标检测器

ViDT: An Efficient and Effective Fully Transformer-based Object Detector

Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han...

TL;DR本论文介绍了ViDT，一个将视觉和检测Transformers整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的Transformer解码器来提高检测性能。ViDT在Microsoft COCO基准数据集上的广泛评估结果表明，它在现有的完全基于Transformer的目标检测器中具有最佳的AP和延迟平衡，并且可以实现高扩展性的大型模型，其AP为49.2。

Abstract

transformers are transforming the landscape of computer vision, especially for recognition tasks. Detection transformers are the first ful

发现论文，激发创造

使用Transformer进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR模型概念简单且不需要专门的库。

May, 2020

基于Transformer的目标检测

本文研究使用纯Transformer模型实现复杂视觉任务中的目标检测，发现Vision Transformer作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果，而且能够保持更高的图像分辨率。

Dec, 2020

基于Transformer的目标检测

本文提出基于Transformer的新方法O²DETR，实现了复杂的有方向物体检测，无需旋转锚点，其性能表现明显优于Faster R-CNN和RetinaNet。

Jun, 2021

一个简单的单尺度视觉Transformer用于物体定位和实例分割

本文提出了一种简单的视觉Transformer设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

使用遮蔽图像建模发挥纯Transformer视觉模型在目标检测中的作用

本文提出了MIMDet检测器，采用预处理的ViT编码器作为检测器基础，通过嵌入卷积中间特征构建多尺度表示，最终结果比采用较为保守微调的ViT检测器在COCO上优于2.5个盒子AP和2.6个掩码AP，并且收敛速度更快。

Apr, 2022

一种可扩展、高效、有效的基于Transformer的物体检测器

本文介绍了Vision和Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022

基于Transformer的二维物体检测综述

本篇论文详细回顾了二十一篇相关的论文，讨论了最近在DETR中基于Transformer方法的研究进展，并涵盖了最新的改进，包括骨干网络改造，查询设计和注意力优化。同时，我们还比较了所有检测变压器的性能和网络设计。

Jun, 2023

小目标检测中的Transformer：现有技术的评估和调查

调查了60多个研究论文，涵盖了2020年至2023年开发的转换器在小目标检测任务上的性能，还提供了一个12个大规模数据集的列表以及使用常见指标（如mAP，FPS，参数数量等）进行了性能比较。

Sep, 2023

SimPLR: 一个简单直接的Transformer用于目标检测和分割

通过在单一尺度特征上操作，基于Transformer的检测器SimPLR能够利用自监督学习和缩放方法，相对于多尺度对应物和纯主干结构检测器具有更强的性能，并且速度更快。

Oct, 2023

基于Vision Transformer的简单且高效网络用于伪装物体和显著物体检测

本文提出了一种简单而有效的基于Vision Transformer（ViT）的网络（SENet），通过采用一种基于不对称ViT的编码器-解码器结构的简单设计，在隐藏目标检测和显著目标检测两个任务上取得了有竞争力的结果，在精细设计的复杂网络上展现出更大的多样性。

Feb, 2024