Nov, 2023

GenZI: 零 Shot 3D 人物场景交互生成

TL;DR可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗?我们提出了 GenZI,这是第一个零样本方法,用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识,这些先验知识学习了丰富的二维人 - 场景组合的语义空间。通过给定自然语言描述和 3D 场景中所需交互的粗略点位置,我们首先利用 VLMs 来想象描绘在场景的多个渲染视图中的可信的二维人交互。然后,我们通过与 2D 交互假设的一致性引导,制定一个鲁棒的迭代优化过程,合成场景中的 3D 人模型的姿态和形状。与现有的基于学习的方法相比,GenZI 避免了传统上对捕获的 3D 交互数据的需求,并允许使用简单易用的文字提示对 3D 交互合成进行灵活控制。大量实验证明我们的零样本方法具有高灵活性和广泛适用性,可适用于包括室内和室外环境在内的各种场景类型。