HAP: 面向人类感知的结构感知遮挡图像建模

Oct, 2023

HAP: 面向人类感知的结构感知遮挡图像建模

HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception

Junkun Yuan, Xinyu Zhang, Hao Zhou, Jian Wang, Zhongwei Qiu...

TL;DR模型预训练对以人为中心的感知至关重要。本文介绍了一种称为 MIM 的预训练方法，并在其基础上引入了人体结构先验，通过人体部位的引导来指导掩码采样过程，从而更好地捕捉人体结构信息。此外，我们还提出了一种结构不变的对齐损失，通过人体部位先验来引导不同的掩码视图在同一图像上紧密对齐。该方法命名为 HAP，使用简单的 ViT 编码器，在 11 个人体为中心的基准测试上取得了新的最高性能，一个数据集上与现有方法相当。例如，对于人员重新识别，HAP 在 MSMT17 上实现了 78.1% 的 mAP，在行人属性识别的 PA-100K 上实现了 86.54% 的 mA，在 MS COCO 上实现了 78.2% 的 AP，可以进行 2D 姿势估计，在 3DPW 上实现了 56.0 的 PA-MPJPE，可进行 3D 姿势和形状估计。

Abstract

model pre-training is essential in human-centric perception. In this paper, we first introduce masked image modeling (MIM) as a pre-training approach for this task. Upon revisiting the MIM training strategy, we r

model pre-training masked image modeling human structure priors human parts hap

发现论文，激发创造

UniHCP: 人类中心感知的统一模型

本文提出了 UniHCP，一个使用简化的端到端模式和平面视觉转换器架构，将广泛的以人为中心的任务统一起来的集成模型，通过在 33 个数据集上进行大规模联合训练，在多个领域和下游任务上直接评估优于强基线结果，在适应特定任务时，UniHCP 在多种以人为中心的任务上取得新的最佳性能。

Mar, 2023

掩膜图像建模的硬贴片挖掘

本文提出了一个基于 Hard Patches Mining (HPM) 的框架，用于 Masked Image Modeling (MIM) 的预训练，采用相对关系学习策略，通过预测损失值来决定下一步的掩码。实验证明仅引入损失预测目标就能产生有效的表征，HMP 有效地构建了掩码图像，能够自我产生更具挑战性的问题。

Apr, 2023

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

面具化运动预测器是强大的三维动作表示学习器

本文提出了一种用于 3D 动作识别的 Masked Motion Prediction（MAMP）框架，通过对蒙面的空间 - 时间骨骼序列进行预测，实现对丰富语义区域的更好关注，进而提高自监督预训练的性能。经过对 NTU-60、NTU-120 和 PKU-MMD 数据集的广泛实验，表明所提出的 MAMP 预训练方法显著提高了基础的 transformer 模型的性能，并取得了最先进的结果。MAMP 的源代码可以在给定的网址上找到。

Aug, 2023

人体去遮挡：人的隐形感知与恢复

使用两阶段框架和基于 mask 的网络方法，本文针对人体消失的问题进行研究，提出了一种新颖的注意力模块和收集了 Amodal Human Perception dataset（AHP）来验证我们方法的有效性和优越性。

Mar, 2021

MiM: 3D 医学图像分析的层叠掩模自监督预训练

提出一种用于 3D 医学图像的新型预训练框架 “Mask in Mask（MiM）”，通过学习来自不同尺度的分层视觉标记的辨别性表示，在器官 / 病变 / 肿瘤分割和疾病分类等任务中展现出 MiM 相对于其他自我监督学习方法的优越性能，此外，大规模预训练数据集的扩展进一步提升了 MiM 在下游任务中的表现。

Apr, 2024

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022

文本为基础的人类图像生成中人本先验在扩散模型中的有效应用

该研究论文探索将人类中心先验直接整合到模型微调阶段，通过人类中心对齐损失强化文本提示中的人类相关信息，以及通过扩散过程中的比例感知和逐步约束确保语义详细性和人类结构准确性，从而提高了合成基于用户编写提示的高质量人类图像的方法。

Mar, 2024

更长范围上下文化的遮蔽自编码器

我们提出了一种自我监督学习框架，称为 “长程上下文化蒙版自编码器（LC-MAE）”，该方法能够有效地利用全局上下文理解视觉表示，同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示，LC-MAE 能够学习到更具有区分性的表示，从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率，比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升，并在多个鲁棒性评估指标上均取得了优异的结果。

Oct, 2023