Hulk：面向人类中心任务的通用知识翻译器

Dec, 2023

Hulk：面向人类中心任务的通用知识翻译器

Hulk: A Universal Knowledge Translator for Human-Centric Tasks

Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo...

TL;DRHulk 是第一个多模态的人本主义通用模型，可以同时处理大多数主流任务，无需任务特定的微调，涵盖 2D 视觉、3D 视觉、基于骨架的和视觉语言任务。

Abstract

human-centric perception tasks, e.g., human mesh recovery, pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop →

human-centric perception tasks human-centric foundation models multimodal human-centric generalist model 2d vision 3d vision

发现论文，激发创造

UniHCP: 人类中心感知的统一模型

本文提出了 UniHCP，一个使用简化的端到端模式和平面视觉转换器架构，将广泛的以人为中心的任务统一起来的集成模型，通过在 33 个数据集上进行大规模联合训练，在多个领域和下游任务上直接评估优于强基线结果，在适应特定任务时，UniHCP 在多种以人为中心的任务上取得新的最佳性能。

Mar, 2023

只学一次查询：单阶段多人多任务人类中心感知的统一人类查询学习

该研究提出了一种统一而全面的人类中心感知 (HCP) 框架 (HQNet)，通过学习一个统一的人类查询表示 (Human Query) 来解决单阶段多人多任务的人类中心感知问题。实验结果表明该方法在多任务人类中心感知模型中表现出色，并与任务特定的人类中心感知模型的性能相媲美，同时还展示了人类查询在新的 HCP 任务上的适应性和鲁棒的泛化能力。

Dec, 2023

3D 大型场景的人类中心场景理解

本文提出了一个大规模多模态数据集 HuCenLife，用于人类中心场景理解，可用于人类姿势和动作的多样性、人与环境的复杂交互、拥挤场景中的遮挡等问题的研究，还提供了用于分割、检测和动作识别的基准测试任务，并设计了适用于大规模人类中心场景的新颖模块，实现了最先进的性能。

Jul, 2023

UniHuman: 一款用于编辑野外人像的统一模型

UniHuman 是一个统一的模型，通过利用人类视觉编码器的指导和引入轻量级的姿势扭曲模块来提高模型的生成质量和泛化能力，并在真实环境中解决了人类图像编辑的多个方面。

Dec, 2023

CapHuman: 捕捉你在平行宇宙的瞬间

我们提出了一种名为 CapHuman 的新框架，通过 “编码然后学习对齐” 的范例，能够在推理过程中对新的个体进行可推广的身份保留，通过引入三维面部先验以实现对人头的灵活和三维一致的控制，从而产生具有丰富内容表示和各种不同头部造型、超越现有基线模型的身份保留、逼真和高保真肖像画。

Feb, 2024

HUNTER：通过从合成实例向真实场景传递知识实现无监督的人体中心化三维检测

基于合成人体实例向真实场景中的无监督 3D 检测方法，通过弥合合成模型和真实点云之间的数据表示和特征分布差异，实现了在人体中心场景中优于当前最先进技术的表现，达到了显著的 87.8％mAP 改进并接近全监督方法的性能（62.15 mAP vs. 69.02 mAP）在 HuCenLife 上。

Mar, 2024

HumanBench: 采用投影助推训练方法实现通用的以人为中心感知

该研究提出了一个基于广泛应用的数项任务，即人类中心感知和下游任务的普适性预训练模型，同时提出了一个基于数据集的综合评估方法 HumanBench 和一种细粒度知识预训练方法 PATH。实验结果表明，PATH 在 17 个下游数据集上达到新的最优结果，在其他两个数据集上与最好的结果相当。

Mar, 2023

面向人类的机器人操作的表示学习

人类具有内在的通用视觉表征，使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能，通过任务融合解码器指导表示学习，使得对于所有感知技能来说，学习编码的结构能够更好地表示重要信息，最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器（R3M、MVP 和 EgoVLP）的表示进行了改进，提升了下游操控策略的学习性能。

Oct, 2023

跨视角和跨姿态的人体三维理解

提出了一种基于自监督学习的预训练方法，使用仅图像的人类中心数据对模型进行训练，通过学习关于 3D 和人体运动的先验知识，在一系列人体相关任务中优于现有的自监督预训练方法，并在模型基于和不基于模型的人体网格重建的精调任务上达到了最先进的性能。

Nov, 2023

面向人类中心感知的多模态通用预训练

本文提出 Human-Centric Multi-Modal Contrastive Learning 框架，通过密集内部样本对比学习和稀疏结构感知对比学习目标，实现多视角数据有效特征表示，为数据高效下游任务转移提供了通用的预训练模型。

Mar, 2022