Mar, 2024

MaGRITTe: 图像、鸟瞰与文本的操控和生成 3D 实现

TL;DR使用部分图像、顶视图的布局信息和文本提示来控制和生成多模态条件下的 3D 场景,通过预训练的文本到图像模型微调,以及布局条件的深度估计和神经辐射场(NeRF),实现从给定条件生成 2D 图像和从 2D 图像生成 3D 场景,避免创建庞大的数据集,得到了定性和定量的实验结果,证明了该方法能够根据多模态条件生成多领域的 3D 场景。