基于合成数据的实例分割的并行预训练 Transformer (PPT)

CVPRJun, 2022

基于合成数据的实例分割的并行预训练 Transformer (PPT)

Parallel Pre-trained Transformers (PPT) for Synthetic Data-based Instance Segmentation

Ming Li, Jie Wu, Jinhang Cai, Jie Qin, Yuxi Ren...

TL;DR本文提出了一种并行预训练 Transformer（PPT）框架，利用模拟渲染和物理学生成高质量的图像注释对，实现基于合成数据的实例细分任务。该方法采用现成的预训练视觉 Transformer 来缓解自然与合成数据之间的差距，从而在少量样本的下游合成数据场景中提供良好的泛化效果。试验结果表明，PPT 在 CVPR2022 AVA Accessibility Vision and Autonomy Challenge 中排名第一，mAP 为 65.155％。

Abstract

Recently, synthetic data-based instance segmentation has become an exceedingly favorable optimization paradigm since it leverages simulation rendering and physics to generate high-quality image-annotation pairs.

synthetic data instance segmentation pre-trained transformers simulation rendering parallel feature learning

发现论文，激发创造

单目和多视角人体姿态估计的 token - 修剪关键点变换器

该论文提出了一种基于 Transformer 的 2D 人体姿态估计方法 ——Token-Pruned Pose Transformer（PPT）及其多视点姿态估计扩展，使用自我注意力仅在选定的标记中进行计算，采用一种名为人体区域融合的新的跨视图融合策略，通过在多视角中对来自多视点的提示进行高效融合，进而实现了与以前人体姿态 Transformer 方法相同的准确度，同时减少了计算量，并在 Human 3.6M 和 Ski-Pose 数据集上取得了新的最优结果。

Sep, 2022

利用 Swin Transformer 进行局部到全局弱监督语义分割

近年来，计算机视觉领域中的弱监督语义分割使用基于图像级标签的监督引起了广泛关注。本研究探索了使用 Swin Transformer 的 'SWTformer' 来提高初始种子 CAMs 的准确性，通过结合局部和全局视角。

Jan, 2024

PPT：高效视觉 Transformer 的令牌修剪和池化

通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术，我们提出了一种名为令牌剪枝和汇聚 Transformer（PPT）的新型加速框架，通过启发式方法自适应地应对两种不同层次的冗余，有效降低模型复杂性同时保持其预测准确性。例如，PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%，吞吐量提高了 45% 以上，而没有准确性下降。

Oct, 2023

PPTFormer: 无人机分割的伪多角度变换器

通过引入 PPTFormer 网络，我们提出了一种新的伪多视角转换网络，通过创建伪视角来增强多视角学习，并通过 Pseudo Multi-Perspective Attention（PMP Attention）和融合，实现了卓越的无人机图像分割结果。该方法在五个无人机分割数据集上达到了最先进的性能，验证了其能够有效模拟无人机飞行视角并显著提高分割精度，从而在无人机场景理解方面取得了具有开创性的突破，并为语义分割的未来发展树立了新的基准。

Jun, 2024

金字塔融合变压器用于语义分割

本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法，结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换，提高了面向掩码的语义分割性能，并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。

Jan, 2022

Swin Transformer 自监督预训练用于三维医学图像分析

本文介绍了一种自我监督学习框架，使用适合医学图像分析的代理任务，成功地在各种人体器官的公开可用的 CT 图像上预训练模型，并在医学分割基准数据集上进行了微调，实现了最先进的匹配结果。

Nov, 2021

金字塔视觉变换器改进基线 PVT v2

本文介绍了改进原 Pyramid Vision Transformer (PVT v1) 的三种新方法，并将其命名为 PVT v2。其中包括线性复杂度注意层、重叠的贴片嵌入以及卷积前馈网络。经过这些修改，PVT v2 通过使计算复杂度线性化，显著提高了基础视觉任务（如分类、检测和分割）的性能，并取得了与最近的 Swin Transformer 等其他作品相当或更好的表现。希望这项工作能促进计算机视觉领域中最先进的 Transformer 研究。

Jun, 2021

基于 Transformer 的视觉分割：一份综述

本文综述了基于 transformer 的视觉分割技术，总结了近期的进展，详细介绍了各种方法设计和应用，并对该领域的未来研究方向进行了探讨。

Apr, 2023

Polyp-PVT：金字塔视觉变换器用于息肉分割

本文提出了基于 Transformer 编码器、三个标准模块（包括串级融合模块，伪装识别模块和相似聚合模块）的息肉分割方法，名为 Polyp-PVT。实验结果表明，该方法在人口学多样性、外观变化，甚至缺失数据方面都具有较好的鲁棒性。

Aug, 2021

Swin Transformer 的自监督跨模态预训练

通过增强 Swin Transformer，我们的模型 SwinFUSE (Swin 多模态融合的无监督增强) 在医学影像领域从不同的影像模态中学习，提升了下游性能，并展现出了对领域变化的适应性以及显著的泛化能力。

May, 2024