Jun, 2024

神经资产:具有 3D 感知多目标场景合成的图像扩散模型

TL;DR通过使用神经资产(Neural Assets)控制场景中各个对象的三维姿势,我们提出了一种解决图像扩散模型中多对象三维姿势控制问题的方法,通过将目标帧的对象姿势作为条件编码到参考图像的对象视觉表示中,实现了外观与姿势特征的分离,并结合现有模型的文本到图像架构,使得我们的方法能够对场景中的每个对象进行精细的三维姿势和放置控制,通过在预训练的文本到图像扩散模型中微调这些信息,我们的模型在合成三维场景数据集和两个真实世界视频数据集(Objectron, Waymo Open)上实现了最新的多对象编辑结果。