单目、单阶段、多个三维人物的回归

ICCVAug, 2020

单目、单阶段、多个三维人物的回归

Monocular, One-stage, Regression of Multiple 3D People

Yu Sun, Qian Bao, Wu Liu, Yili Fu, Michael J. Black...

TL;DR该论文提出了一种被称为 ROMP 的单阶段方法，通过学习每像素的形式同时预测一个身体中心热图和一个网格参数映射，从而达到多 3D 人体回归的效果。与现有的多阶段流水线方法相比，该方法免去了复杂的多阶段流程，更加稳健。

Abstract

This paper focuses on the regression of multiple 3D people from a single RGB image. Existing approaches predominantly follow a multi-stage pipeline that first detects people in bounding boxes and then independently regresses their 3D body meshes. In contrast, we propose to Regress all

3d people regression romp per-pixel representation body-center heatmap multi-stage pipeline

发现论文，激发创造

从单目 RGB 图像估计多人三维姿态的单次拍摄方法

提出了一种新的单次拍摄的方法来从单目 RGB 相机中对一般场景中的多人进行 3D 姿态估计，该方法使用新颖的鲁棒姿势地图（ORPM），该地图能够在其他人和场景中的强烈部分遮挡下实现全身姿态推断，并通过人体部位关联，在不需要显式边界框预测的情况下推断任意数量的人的 3D 姿态，并通过实际图像中显示的大型多人交互和遮挡的第一个大规模训练数据集 MuCo-3DHP 进行培训，并在我们的新挑战性的 3D 注释多人测试集 MuPoTs-3D 上取得了良好的性能。

Dec, 2017

从单张图像中连贯重建多人

本研究针对单张图像中的多人 3D 姿态估计问题，采用自顶向下的方法，并利用 SMPL 参数化身体模型，提出了基于距离场碰撞损失和深度排序感知损失的网络训练框架，有效解决了结果不连贯的问题，并且在标准的 3D 姿态基准测试中表现出优异性能。

Jun, 2020

从单个 RGB 相机学习重建穿着衣服的人

本文提出了一种基于学习的模型，利用少量单目视频帧 (1-8 帧) 从移动的人中推断出其个性化的 3D 形状，可在不到 10 秒内达到 5mm 的重建精度。该模型学习预测一个统计体型模型的参数和实例化偏移量，同时加入衣服和头发的形状，具有快速和准确的预测，这得益于其对 T-pose 空间的预测和从上往下和从下往上两个视图预测的结合。该模型仅基于合成的 3D 数据进行学习，可将可变数量的帧作为输入，即使仅有一张图像，也能以 6mm 的精度重建形状。3 个不同数据集的结果表明了本方法的有效性和准确性。

Mar, 2019

CrowdRec: 单色图像的 3D 众人重建

通过利用人群特征和提出群体约束优化方法，本研究旨在改善单个人物方法在人群图片上的表现，从而实现在大规模人群图像中获得准确的姿势和形状。

Oct, 2023

体网格作为点

本文提出了一种新的单阶段模型体块点（BMP）用于多人身体网格估计，实验结果表明其在去冗余、提高效率等方面有出色表现。

May, 2021

从单目图像中恢复 3D 人体网格：一项调查

本篇文章调查了单目三维人体网格恢复的相关任务，包括身体模型，恢复框架 / 训练目标，数据集评估指标和评测结果，并从优势和劣势方面深入分析了两种范式：优化和回归。作者希望激励研究人员的兴趣，促进该领域的研究。

Mar, 2022

单张图片中的多人隐式重建

本研究提出了一种新的端到端学习框架，可以从一张图像中获取多人的详细且具有空间连续性的重建，并能解决多人姿态、遮挡、衣着等问题带来的困难，实现了对穿衣人体在任意姿势下的模型自由_implcicit 3D 重建和同步估计。针对模型和数据集，实验结果表明，该方法与现有的竞争方法相比，具有更高的精度和完整性，呈现了最先进的性能。

Apr, 2021

单张 RGB 图像的 3D 多人姿态估计之基于相机距离的自顶向下方法

本文提出了一种全面的基于学习的、视野距离感知的自顶向下的方法，用于从单个 RGB 图像中估计多人的 3D 姿态，并通过人体检测、3D 人体根位置定位和相对根姿态估计模块，实现了与最先进单人 3D 姿态估计模型可相媲美的结果，同时也比公开数据集上之前的 3D 多人姿态估计方法表现更出色。

Jul, 2019

从单幅图像中综合估计三维人体和场景网格

本文提出了一种端到端可训练模型，以单个 RGB 图像感知 3D 场景，估计相机姿态和室内布局，并重建人体和物体网格。通过对所有估计方面施加全面而复杂的损失，我们证明了我们的模型优于现有的人体网格方法和室内场景重建方法。据我们所知，这是第一个在网格级别输出对象和人体预测，并对场景和人体姿态进行联合优化的模型。

Dec, 2020

从单目图像估计多人三维人体姿态

通过提出的 HG-RCNN 网络，借助 Mask-RCNN 和 Hourglass 结构进行多人 3D 人体姿态估计，实现对每个感兴趣区域（RoI）中 2D 关键点的先预测后提升，最终采用弱透视投影模型和焦距和根偏移的联合优化将估计的 3D 姿态置于相机坐标系下，该网络简单模块化且无需多人 3D 姿态数据集，取得了 MuPoTS-3D 数据集的最优性能，并能近似在相机坐标系下估计 3D 姿态。

Sep, 2019