Jul, 2024

Chat-Edit-3D: 通过文本提示的交互式3D场景编辑

TL;DR基于视觉语言预训练模型的图像内容操作已成功扩展到以文本驱动的3D场景编辑。本文提出一种基于对话的3D场景编辑方法CE3D,以大型语言模型为中心,允许用户进行任意文本输入并解析其意图,进而自主调用相应的视觉专家模型。通过设计利用Hash-Atlas来表示3D场景视图的方案,将3D场景编辑转移到2D图像上,实现了2D编辑和3D重建过程的完全解耦,使CE3D能够灵活地整合各种现有的2D或3D视觉模型,而不需要复杂的融合设计。实验结果表明,CE3D能够有效地整合多个视觉模型,实现多样的编辑视觉效果,并具备强大的场景理解能力和多轮对话功能。