预训练的 Transformer 金字塔网络

Nov, 2022

Integrally Pre-Trained Transformer Pyramid Networks

Yunjie Tian, Lingxi Xie, Zhaozhi Wang, Longhui Wei, Xiaopeng Zhang...

TL;DR本研究提出了一种基于屏蔽图像建模的完整预训练框架，统一复现与识别阶段，并通过深入的技术贡献，在图片分类、物体检测和语义分割方面实现了新的最佳结果。

Abstract

In this paper, we present an integral pre-training framework based on masked image modeling (MIM). We advocate for pre-training the backbone and neck jointly so that the transfer gap between MIM and downstream re

pre-training masked image modeling visual recognition backbone and neck training itpns

发现论文，激发创造

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

使用遮蔽图像建模发挥纯 Transformer 视觉模型在目标检测中的作用

本文提出了 MIMDet 检测器，采用预处理的 ViT 编码器作为检测器基础，通过嵌入卷积中间特征构建多尺度表示，最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP，并且收敛速度更快。

Apr, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

用于实时无人机跟踪的连体变压器金字塔网络

这篇论文介绍了 Siamese Transformer Pyramid Network（SiamTPN）方法，该方法结合了 CNN 和 Transformer 的优势，并针对移动平台的计算资源有限的情况，构建了一个稳健的、针对目标的外观模型。实验结果表明，该方法在高速操作时取得了竞争性的结果，且在 LaSOT 数据集上的 AUC 得分为 58.1%。

Oct, 2021

磁共振图像处理变压器的普适重建

发展和评估了一种用于常规加速磁共振成像重建的深度学习模型。

May, 2024

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

MIMIC：蒙面图像预训练并混合对比细调用于面部表情识别

利用自监督学习方法在中等规模的图像数据集上，对视觉 Transformer 进行预训练，并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异，实现更好的表征学习。

Jan, 2024

预训练图像处理 Transformer

本论文主要研究了低层级计算机视觉任务（如去噪、超分辨率和去雨等），并开发了一种新的预训练模型 —— 图像处理变压器（IPT），通过 ImageNet 基准测试产生大量的损坏图像对，训练 IPT 模型并成功地在不同的图像处理任务上产生了良好的结果。

Dec, 2020

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

金字塔医疗转换器用于医学图像分割

通过应用金字塔形网络结构、多尺度注意力和 CNN 特征提取，我们提出了一种称为金字塔医疗变压器（PMTrans）的新型方法，可以更好地处理医学图像分割任务。在三个医学图像数据集上的实验结果表明，PMTrans 相较于最新的基于 CNN 和变压器的模型，具有更好的性能。

Apr, 2021