在没有人的情境中生成三维人物

CVPRDec, 2019

Generating 3D People in Scenes without People

Yan Zhang, Mohamed Hassan, Heiko Neumann, Michael J. Black, Siyu Tang

TL;DR本研究提出了一种全自动系统，用于将 3D 场景转换成自然姿势的 3D 人体，该系统采用基于表面的 3D 人体模型 SMPL-X，利用条件变分自编码器和场景约束，可以合成与 3D 环境自然交互的真实、表现力强的 3D 人体，适用于许多应用领域，例如人体姿势估计、视频游戏和 VR / AR。

Abstract

We present a fully automatic system that takes a 3d scene and generates plausible 3D human bodies that are posed naturally in that 3d scene

3d scene human bodies interaction autonomous systems pose estimation

发现论文，激发创造

基于解耦结构的场景内多样化 3D 人体姿态生成

本文提出了一种新颖的方法，用于在具有语义控制的场景中生成多样化的 3D 人体姿势。

Jun, 2024

具有空间约束扩散模型的人类感知三维场景生成

通过扩展基于自回归的人体感知 3D 场景生成方法，本研究探索了扩散模型在同时考虑多个输入人体和底图的情况下生成逼真三维场景的潜力，并引入了人物物体碰撞避免和房间边界约束等空间碰撞导向机制来避免与人体动作冲突的场景生成。大量实验结果表明，与现有最先进方法相比，我们的框架可以生成更自然、更逼真的三维场景，具有精确的人体场景交互，并显著减少人物物体碰撞。

Jun, 2024

使用生成模型的合成数据在野外进行的 3D 人体重建

通过基于扩散模型的 HumanWild 方法，我们展示了由生成模型创建的合成数据与计算机图形渲染数据互补，从而在 3D 人体姿态和形状估计方面在多样化的真实场景中实现了卓越的泛化性能。

Mar, 2024

GenZI: 零 Shot 3D 人物场景交互生成

可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗？我们提出了 GenZI，这是第一个零样本方法，用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识，这些先验知识学习了丰富的二维人 - 场景组合的语义空间。通过给定自然语言描述和 3D 场景中所需交互的粗略点位置，我们首先利用 VLMs 来想象描绘在场景的多个渲染视图中的可信的二维人交互。然后，我们通过与 2D 交互假设的一致性引导，制定一个鲁棒的迭代优化过程，合成场景中的 3D 人模型的姿态和形状。与现有的基于学习的方法相比，GenZI 避免了传统上对捕获的 3D 交互数据的需求，并允许使用简单易用的文字提示对 3D 交互合成进行灵活控制。大量实验证明我们的零样本方法具有高灵活性和广泛适用性，可适用于包括室内和室外环境在内的各种场景类型。

Nov, 2023

En3D：从 2D 合成数据雕刻 3D 人体的增强生成模型

通过以人为基础的准确物理建模，我们提出了一种增强的生成方案 En3D，能够从合成的平衡、多样化和结构化的人类图像中，准确地模拟具有逼真外观的通用化 3D 人物。

Jan, 2024

基于自我中心视角的三维场景中概率人类网格恢复

提出了一种基于场景的扩散方法，用于从自我感知的角度预测社交伴侣的姿态和形状，通过物理学基础碰撞评分进一步解决人 - 场景相互渗透，分类器自由训练使得在不同情况下可进行可扩展抽样，并具有更多的多样性，能够通过基于每个关节的可见性进行噪声去除，控制每个身体部位，实现了优秀的可见关节准确度和不可见身体部位的多样性。

Apr, 2023

语义控制下的人 - 场景交互合成

本研究提出了一种名为 COINS 的生成模型，可以在高级语义规格的控制下合成 3D 场景内与虚拟人之间的自然互动，该模型通过编码统一的潜在空间和位置编码来嵌入互动语义，并可以自然地合成多个对象之间的组合互动，实验结果表明该模型可以合成具有语义控制的真实人 - 场景交互。

Jul, 2022

在 3D 室内场景中合成多样的人体动作

提出了一种基于强化学习的方法来处理 3D 室内场景中虚拟人类与环境以及物体的交互，包括生成运动模型、创新的碰撞回避奖励函数、基于标记体和半径场的交互感知奖励函数以及训练策略等多个方面，实验结果表明，该方法在运动的自然性和多样性方面都优于现有的人 - 场景交互综合框架。

May, 2023

学习人 - 场景交互生成 3D 场景

本文提出了 POSA 模型，用来学习人体与场景的交互，包括接触概率和语义场景标签，并展示了其在 3D 人物自动放置和一致的单目人体姿态估计方面的改进。

Dec, 2020

SMPLpix：基于 3D 人体模型的神经化身

本研究提出了一种新的深度学习网络，用于将 3D 模型转换为逼真的照片，旨在弥合现有深度生成模型不能灵活控制的瓶颈问题，同时也改善了传统三维图形处理渲染机制的不足之处。

Aug, 2020