Oct, 2023

HAP: 面向人类感知的结构感知遮挡图像建模

TL;DR模型预训练对以人为中心的感知至关重要。本文介绍了一种称为 MIM 的预训练方法,并在其基础上引入了人体结构先验,通过人体部位的引导来指导掩码采样过程,从而更好地捕捉人体结构信息。此外,我们还提出了一种结构不变的对齐损失,通过人体部位先验来引导不同的掩码视图在同一图像上紧密对齐。该方法命名为 HAP,使用简单的 ViT 编码器,在 11 个人体为中心的基准测试上取得了新的最高性能,一个数据集上与现有方法相当。例如,对于人员重新识别,HAP 在 MSMT17 上实现了 78.1% 的 mAP,在行人属性识别的 PA-100K 上实现了 86.54% 的 mA,在 MS COCO 上实现了 78.2% 的 AP,可以进行 2D 姿势估计,在 3DPW 上实现了 56.0 的 PA-MPJPE,可进行 3D 姿势和形状估计。