通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
本文提出了 MIMDet 检测器,采用预处理的 ViT 编码器作为检测器基础,通过嵌入卷积中间特征构建多尺度表示,最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP,并且收敛速度更快。
Apr, 2022
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
这篇论文介绍了 Siamese Transformer Pyramid Network(SiamTPN)方法,该方法结合了 CNN 和 Transformer 的优势,并针对移动平台的计算资源有限的情况,构建了一个稳健的、针对目标的外观模型。实验结果表明,该方法在高速操作时取得了竞争性的结果,且在 LaSOT 数据集上的 AUC 得分为 58.1%。
Oct, 2021
发展和评估了一种用于常规加速磁共振成像重建的深度学习模型。
May, 2024
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
利用自监督学习方法在中等规模的图像数据集上,对视觉 Transformer 进行预训练,并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异,实现更好的表征学习。
Jan, 2024
本论文主要研究了低层级计算机视觉任务(如去噪、超分辨率和去雨等),并开发了一种新的预训练模型 —— 图像处理变压器(IPT),通过 ImageNet 基准测试产生大量的损坏图像对,训练 IPT 模型并成功地在不同的图像处理任务上产生了良好的结果。
Dec, 2020
本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法,该方法利用来自其他几个模态的指导信息对图像进行预训练,取代了 Vision Transformer 中的 tokenizer,并在一系列下游视觉识别任务中取得了显著优越的效果。
Mar, 2022
通过应用金字塔形网络结构、多尺度注意力和 CNN 特征提取,我们提出了一种称为金字塔医疗变压器(PMTrans)的新型方法,可以更好地处理医学图像分割任务。在三个医学图像数据集上的实验结果表明,PMTrans 相较于最新的基于 CNN 和变压器的模型,具有更好的性能。
Apr, 2021