GenZI: 零 Shot 3D 人物场景交互生成

Nov, 2023

GenZI: Zero-Shot 3D Human-Scene Interaction Generation

Lei Li, Angela Dai

TL;DR可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗？我们提出了 GenZI，这是第一个零样本方法，用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识，这些先验知识学习了丰富的二维人 - 场景组合的语义空间。通过给定自然语言描述和 3D 场景中所需交互的粗略点位置，我们首先利用 VLMs 来想象描绘在场景的多个渲染视图中的可信的二维人交互。然后，我们通过与 2D 交互假设的一致性引导，制定一个鲁棒的迭代优化过程，合成场景中的 3D 人模型的姿态和形状。与现有的基于学习的方法相比，GenZI 避免了传统上对捕获的 3D 交互数据的需求，并允许使用简单易用的文字提示对 3D 交互合成进行灵活控制。大量实验证明我们的零样本方法具有高灵活性和广泛适用性，可适用于包括室内和室外环境在内的各种场景类型。

Abstract

Can we synthesize 3d humans interacting with scenes without learning from any 3D human-scene interaction data? We propose GenZI, the first zero-shot approach to generating 3D →

3d humans human-scene interactions zero-shot approach vision-language models interaction synthesis

发现论文，激发创造

语义控制下的人 - 场景交互合成

本研究提出了一种名为 COINS 的生成模型，可以在高级语义规格的控制下合成 3D 场景内与虚拟人之间的自然互动，该模型通过编码统一的潜在空间和位置编码来嵌入互动语义，并可以自然地合成多个对象之间的组合互动，实验结果表明该模型可以合成具有语义控制的真实人 - 场景交互。

Jul, 2022

零样本动作和物体组合生成视频

本研究提出了一种零样本组合条件下生成人物 - 物品交互视频的方法，并使用一种新型对抗框架 HOI-GAN 进行探索和验证，在两个具有挑战性的数据集：EPIC-Kitchens 和 20BN-Something-Something v2 上进行了广泛的定量和定性评估。

Dec, 2019

在没有人的情境中生成三维人物

本研究提出了一种全自动系统，用于将 3D 场景转换成自然姿势的 3D 人体，该系统采用基于表面的 3D 人体模型 SMPL-X，利用条件变分自编码器和场景约束，可以合成与 3D 环境自然交互的真实、表现力强的 3D 人体，适用于许多应用领域，例如人体姿势估计、视频游戏和 VR / AR。

Dec, 2019

InterDreamer: 零激活文本向三维动态人物 - 物体交互

通过使用预训练的大型模型和文本到动作模型，本文介绍了一种名为 InterDreamer 的框架，能够以零样本的方式生成与文本指令无缝对齐的逼真和连贯的 3D 人物 - 物体交互序列。

Mar, 2024

Agent3D-Zero：一种用于零样本三维理解的智能体

通过引入 Agent3D-Zero 框架，我们能够以零样本学习的方式处理三维场景理解问题，通过选择和分析一系列视点来促进三维理解，并利用自定义的视觉提示来增强模型的能力。大量实验证明了该框架在理解各种以前未见的三维环境方面的有效性。

Mar, 2024

ContactGen: 为合作伙伴提供基于接触指导的交互式三维人体生成

基于引导扩散框架，我们提出了一个新方法：根据给定的互动标签生成参与互动的 3D 人体，通过自适应地估计潜在的接触区域和使用它们作为指导，我们演示了在 CHI3D 数据集上的 ContactGen 方法生成与比较方法相比更加真实多样的姿势。

Jan, 2024

ZeroAvatar: 从单张图像生成零样本 3D 头像

本研究提出了一种名为 ZeroAvatar 的方法，它使用人体先验约束来保持更复杂的图形（如人体）的几何形状以及完成不可见部位的纹理修复，并且在优化的图像到 3D 人体生成中表现出色，优于存在的一些零样本图像到 3D 方法。

May, 2023

HUMANISE: 3D 场景中基于语言条件的人类运动生成

提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集，并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务，以及相应的在场景和语言指导下的生成模型，该模型能够在 3D 场景中产生多样化且语义一致的人体动作。

Oct, 2022

零構人體多人舞蹈生成

提出了一种名为 MultiDance-Zero 的零样本框架，用于合成符合任意多人和背景的视频，同时准确地遵循动作姿势，通过深入回溯获取最终清晰图像的背景和关键点，从而进一步提高生成视频的时序一致性。

Jan, 2024

文本驱动的三维人物物体交互生成

本研究利用 InterFusion 框架，通过从文本中提取到的人体姿势估计作为几何先验，实现了具有复杂空间关系的多个概念的高质量三维人物 - 物体交互场景的生成，并且结果表明 InterFusion 在三维 HOI 生成方面显著优于现有的最先进方法。

Mar, 2024