3D 大型场景的人类中心场景理解

Jul, 2023

Human-centric Scene Understanding for 3D Large-scale Scenarios

Yiteng Xu, Peishan Cong, Yichen Yao, Runnan Chen, Yuenan Hou...

TL;DR本文提出了一个大规模多模态数据集 HuCenLife，用于人类中心场景理解，可用于人类姿势和动作的多样性、人与环境的复杂交互、拥挤场景中的遮挡等问题的研究，还提供了用于分割、检测和动作识别的基准测试任务，并设计了适用于大规模人类中心场景的新颖模块，实现了最先进的性能。

Abstract

human-centric scene understanding is significant for real-world applications, but it is extremely challenging due to the existence of diverse human poses and actions, complex human-environment interactions, severe occlusions in crowds, etc. In this paper, we present a large-scale

human-centric scene understanding multi-modal dataset hucenlife 3d perception tasks lidar-based segmentation

发现论文，激发创造

HUNTER：通过从合成实例向真实场景传递知识实现无监督的人体中心化三维检测

基于合成人体实例向真实场景中的无监督 3D 检测方法，通过弥合合成模型和真实点云之间的数据表示和特征分布差异，实现了在人体中心场景中优于当前最先进技术的表现，达到了显著的 87.8％mAP 改进并接近全监督方法的性能（62.15 mAP vs. 69.02 mAP）在 HuCenLife 上。

Mar, 2024

UniHCP: 人类中心感知的统一模型

本文提出了 UniHCP，一个使用简化的端到端模式和平面视觉转换器架构，将广泛的以人为中心的任务统一起来的集成模型，通过在 33 个数据集上进行大规模联合训练，在多个领域和下游任务上直接评估优于强基线结果，在适应特定任务时，UniHCP 在多种以人为中心的任务上取得新的最佳性能。

Mar, 2023

Crowd3D：从单张图像中重建数百人

本文提出了 Crowd3D 框架，用于从单个广角场景图像中重建数百人的三维姿态、形状和位置，该方法基于新定义的 Human-scene Virtual Interaction Point（HVIP）的像素定位来解决复杂场景中的人群定位问题，并使用 adaptive human-centric cropping 方案进行处理，同时贡献了一组用于场景人群重建的基准数据集 LargeCrowd。

Jan, 2023

HSC4D: 利用可穿戴 IMUS 和激光雷达在大规模室内外空间中以人为中心的 4D 场景捕获

提出了人性化的 4D 场景捕捉（HSC4D），使用 IMUs 和 LiDAR 进行全空间和无地图的动态数字世界创建，并将它们用于长期捕捉。同时，关注人与环境之间的关系，以实现交互更为真实。提出了一个包含准确动态人体运动和位置的大型场景数据集，可用于多个下游任务。

Mar, 2022

人类在事件中：基于人的视频分析的大规模基准测试

本研究针对人类中心视频分析中的复杂事件提出了一个新的大规模数据集，HiEve（人类中心视频分析中的复杂事件），包含超过 1 百万个姿势，56k 个行为实例和平均轨迹长度 > 480 帧。我们提出了一个增强的姿势估计算法，通过利用行动信息指导学习更强大的 2D 姿势特征，显著提高了现有姿势估计管道的性能。通过大量实验，我们证明了 HiEve 是一个挑战性强的人类中心视频分析数据集。

May, 2020

HUMANISE: 3D 场景中基于语言条件的人类运动生成

提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集，并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务，以及相应的在场景和语言指导下的生成模型，该模型能够在 3D 场景中产生多样化且语义一致的人体动作。

Oct, 2022

人工与自然场景的通用人类中心数据集：Human-Art

介绍了一种新的涵盖自然与人造场景图片，包含 2D 和 3D 人体注释信息的 Human-Art 数据集，此数据集包含 5 种自然场景和 15 种人造场景共 50k 张高质量图片，为多项计算机视觉任务提供了全面且多样化的样本，包括人体检测，2D 和 3D 人体姿态估计，图像生成和运动转移等。

Mar, 2023

激光人：自由环境下基于语言引导的场景感知人体运动生成

为了解决现有数据集的限制，我们引入了 LaserHuman，这是一个开创性的数据集，旨在革新 Scene-Text-to-Motion 研究。LaserHuman 通过包含 3D 环境中的真实人类动作，自由形式的自然语言描述，室内外场景的混合以及动态、不断变化的场景而脱颖而出。多样的采集数据和丰富的注释为条件运动生成研究提供了巨大机遇，也可以促进实际应用的开发。此外，为了生成语义一致且物理可行的人体动作，我们提出了一个简单但有效的多条件扩散模型，在现有数据集上达到了最先进的性能。

Mar, 2024

只学一次查询：单阶段多人多任务人类中心感知的统一人类查询学习

该研究提出了一种统一而全面的人类中心感知 (HCP) 框架 (HQNet)，通过学习一个统一的人类查询表示 (Human Query) 来解决单阶段多人多任务的人类中心感知问题。实验结果表明该方法在多任务人类中心感知模型中表现出色，并与任务特定的人类中心感知模型的性能相媲美，同时还展示了人类查询在新的 HCP 任务上的适应性和鲁棒的泛化能力。

Dec, 2023

CrowdHuman：人群中检测人物的基准

本文介绍了一个新的数据集 CrowdHuman，用于更好地评估人群场景中的探测器，该数据集包含各种各样的遮挡问题，通过对比先前的数据集，展示了在 Cross-dataset generalization 方面的表现。

Apr, 2018