3D 大型场景的人类中心场景理解
基于合成人体实例向真实场景中的无监督 3D 检测方法,通过弥合合成模型和真实点云之间的数据表示和特征分布差异,实现了在人体中心场景中优于当前最先进技术的表现,达到了显著的 87.8%mAP 改进并接近全监督方法的性能(62.15 mAP vs. 69.02 mAP)在 HuCenLife 上。
Mar, 2024
本文提出了 UniHCP,一个使用简化的端到端模式和平面视觉转换器架构,将广泛的以人为中心的任务统一起来的集成模型,通过在 33 个数据集上进行大规模联合训练,在多个领域和下游任务上直接评估优于强基线结果,在适应特定任务时,UniHCP 在多种以人为中心的任务上取得新的最佳性能。
Mar, 2023
本文提出了 Crowd3D 框架,用于从单个广角场景图像中重建数百人的三维姿态、形状和位置,该方法基于新定义的 Human-scene Virtual Interaction Point(HVIP)的像素定位来解决复杂场景中的人群定位问题,并使用 adaptive human-centric cropping 方案进行处理,同时贡献了一组用于场景人群重建的基准数据集 LargeCrowd。
Jan, 2023
提出了人性化的 4D 场景捕捉(HSC4D),使用 IMUs 和 LiDAR 进行全空间和无地图的动态数字世界创建,并将它们用于长期捕捉。同时,关注人与环境之间的关系,以实现交互更为真实。提出了一个包含准确动态人体运动和位置的大型场景数据集,可用于多个下游任务。
Mar, 2022
本研究针对人类中心视频分析中的复杂事件提出了一个新的大规模数据集,HiEve(人类中心视频分析中的复杂事件),包含超过 1 百万个姿势,56k 个行为实例和平均轨迹长度 > 480 帧。我们提出了一个增强的姿势估计算法,通过利用行动信息指导学习更强大的 2D 姿势特征,显著提高了现有姿势估计管道的性能。通过大量实验,我们证明了 HiEve 是一个挑战性强的人类中心视频分析数据集。
May, 2020
提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集,并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务,以及相应的在场景和语言指导下的生成模型,该模型能够在 3D 场景中产生多样化且语义一致的人体动作。
Oct, 2022
介绍了一种新的涵盖自然与人造场景图片,包含 2D 和 3D 人体注释信息的 Human-Art 数据集,此数据集包含 5 种自然场景和 15 种人造场景共 50k 张高质量图片,为多项计算机视觉任务提供了全面且多样化的样本,包括人体检测,2D 和 3D 人体姿态估计,图像生成和运动转移等。
Mar, 2023
为了解决现有数据集的限制,我们引入了 LaserHuman,这是一个开创性的数据集,旨在革新 Scene-Text-to-Motion 研究。LaserHuman 通过包含 3D 环境中的真实人类动作,自由形式的自然语言描述,室内外场景的混合以及动态、不断变化的场景而脱颖而出。多样的采集数据和丰富的注释为条件运动生成研究提供了巨大机遇,也可以促进实际应用的开发。此外,为了生成语义一致且物理可行的人体动作,我们提出了一个简单但有效的多条件扩散模型,在现有数据集上达到了最先进的性能。
Mar, 2024
该研究提出了一种统一而全面的人类中心感知 (HCP) 框架 (HQNet),通过学习一个统一的人类查询表示 (Human Query) 来解决单阶段多人多任务的人类中心感知问题。实验结果表明该方法在多任务人类中心感知模型中表现出色,并与任务特定的人类中心感知模型的性能相媲美,同时还展示了人类查询在新的 HCP 任务上的适应性和鲁棒的泛化能力。
Dec, 2023
本文介绍了一个新的数据集 CrowdHuman,用于更好地评估人群场景中的探测器,该数据集包含各种各样的遮挡问题,通过对比先前的数据集,展示了在 Cross-dataset generalization 方面的表现。
Apr, 2018