使用 Vision Transformers 对检测迁移学习进行基准测试

Nov, 2021

使用 Vision Transformers 对检测迁移学习进行基准测试

Benchmarking Detection Transfer Learning with Vision Transformers

Yanghao Li, Saining Xie, Xinlei Chen, Piotr Dollar, Kaiming He...

TL;DR本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术，使用五种 ViT 初始化方法进行实验比较，结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进，随着模型大小的增加，这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。

Abstract

object detection is a central downstream task used to test if pre-trained network parameters confer benefits, such as improved accuracy or training speed. The complexity of object detection methods can make this

object detection vision transformer models transfer learning unsupervised learning coco

发现论文，激发创造

基于 Transformer 的目标检测

本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测，发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果，而且能够保持更高的图像分辨率。

Dec, 2020

使用遮蔽图像建模发挥纯 Transformer 视觉模型在目标检测中的作用

本文提出了 MIMDet 检测器，采用预处理的 ViT 编码器作为检测器基础，通过嵌入卷积中间特征构建多尺度表示，最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP，并且收敛速度更快。

Apr, 2022

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

计算机视觉中的活体检测：基于 Transformer 的自监督学习用于人脸反欺骗

本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架，对面部反欺诈任务进行了 Fine-tuning，与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示，ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型，进一步推动了生物识别安全领域的重要进展。

Jun, 2024

一种可扩展、高效、有效的基于 Transformer 的物体检测器

本文介绍了 Vision 和 Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022

使用视觉 Transformer 进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

自监督视觉 Transformer 用于新颖目标的 3D 姿态估计

本研究评估和展示了使用对比学习来训练深度模板匹配的自监督 CNNs 和 Vision Transformers 之间的差异。结果表明，Vision Transformers 在匹配准确度方面优于 CNNs，并且对于某些情况，预训练的 Vision Transformers 并不需要微调。此外，我们还强调了比较这两种网络进行深度模板匹配时的优化和网络结构差异。

May, 2023

探索纯视觉 Transformer 主干网络在目标检测中的应用

本研究探讨使用层次结构大减的视觉变换器（ViT）作为物体检测的骨干网络，使用最小调整实现简单的特征金字塔和窗口注意力，预训练和微调使用 ViT 和掩码自编码器，提出的模型在 COCO 数据集上达到 61.3 AP_box，与使用层次骨干网络的现有领先方法相媲美。

Mar, 2022