ViTPose: 用于人体姿势估计的简单视觉 Transformer 基线模型
通过对简单的 Vision Transformer(ViT)模型进行高性能的分割实验,本文提出了 PlainSeg 和 PlainSeg-Hier 两种简洁高效的模型,包括了最后一个特征图的 3x3 卷积和 Transformer 编码器或解码器,并结合了高分辨率特征和更大的学习率,实验证明这些模型在语义分割中具有高性能和高效率,是评估基础模型转移能力的有力工具。
Oct, 2023
我们的研究将 6D 姿态估计问题转化为直接的回归任务,利用 Vision Transformers 的能力进行探索,通过对分类标记的定制使用来进行姿态估计。我们还引入了一种简单的方法来确定姿态的置信度,这可以很容易地集成到大多数 6D 姿态估计框架中。我们的方法 PViT-6D 在实现简单和端到端可学习的同时,表现优于当前最先进方法,在 Linemod-Occlusion 数据集上提高 0.3% ADD (-S),在 YCB-V 数据集上提高 2.7% ADD (-S)。此外,我们的方法提高了模型的可解释性和推理性能的可靠性。
Nov, 2023
本研究探讨使用层次结构大减的视觉变换器(ViT)作为物体检测的骨干网络,使用最小调整实现简单的特征金字塔和窗口注意力,预训练和微调使用 ViT 和掩码自编码器,提出的模型在 COCO 数据集上达到 61.3 AP_box,与使用层次骨干网络的现有领先方法相媲美。
Mar, 2022
这篇研究论文提出了一种高效率视觉变压器(HEViTPose)用于人体姿势估计,通过特征分组、空间降级机制及多维度注意力头保持特征多样性。通过优化模型的 Patch Embedded Overlap Width,实现了性能、参数和 GFLOPs 的改进,与最先进模型相当,但更轻量化。
Nov, 2023
本文发现在 ImageNet-1k 规模的数据集上,Vision Transformer 模型不需要复杂的正则化技术,标准的数据增强足以提高模型表现。作者提出几种修改方式,能在较短时间内显著提高模型性能,实验表明在 TPUv3-8 上训练 90 个 epoch 的 ViT 模型在 7 小时内可以超过 76% top-1 精度,达到经典的 ResNet50 模型的性能表现。经过 300 个 epoch 的训练,模型可以在不到一天的时间内达到 80% 的 top-1 精度。
May, 2022
本文介绍了改进原 Pyramid Vision Transformer (PVT v1) 的三种新方法,并将其命名为 PVT v2。其中包括线性复杂度注意层、重叠的贴片嵌入以及卷积前馈网络。经过这些修改,PVT v2 通过使计算复杂度线性化,显著提高了基础视觉任务(如分类、检测和分割)的性能,并取得了与最近的 Swin Transformer 等其他作品相当或更好的表现。希望这项工作能促进计算机视觉领域中最先进的 Transformer 研究。
Jun, 2021
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
通过引入粗糙到精细的注意掩蔽策略到视觉 Transformer (ViT) 中,我们提出了一个新的适配器模型 Stable-Pose,以在生成图像时获得准确的姿势指导,并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。
Jun, 2024
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决 Vision Transformer (ViT) 在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中 ViT-Adapter-L 模型在不使用额外数据的情况下,在 COCO test-dev 数据集上实现了 state-of-the-art 的性能。
May, 2022