Hao Ouyang, Kathryn Heal, Stephen Lombardi, Tiancheng Sun
TL;DRText2Immersion 是一种从文本提示生成高质量 3D 沉浸式场景的优雅方法,可以生成多样化的场景,进一步推动了基于文本的 3D 场景生成。
Abstract
We introduce text2immersion, an elegant method for producing high-quality 3D
immersive scenes from text prompts. Our proposed pipeline initiates by
progressively generating a gaussian cloud using pre-trained 2D d
我们提供了一个文本转 3D 360 度场景生成流水线,能够在几分钟内为野外环境创建综合的 360 度场景。我们的方法利用 2D 扩散模型的生成能力和提示自我完善来创建高质量和全局连贯的全景图像,这作为一个初步的 “平面”(2D)场景表示。随后,通过采用粒子技术将它提升到 3D 高斯函数,以实现实时浏览。为了产生一致的 3D 几何结构,我们的流水线通过将 2D 单目深度对齐成全局优化点云,构建了一个空间连贯的结构。这个点云作为 3D 高斯函数的初始状态的质心。为了解决单视角输入固有的不可见问题,我们对合成和输入相机视图应用语义和几何约束作为规范,这些约束指导高斯函数的优化,帮助重建不可见的区域。总之,我们的方法提供了一个全局一致的 360 度视角的 3D 场景,相较于现有技术提供了更加增强的沉浸式体验。项目网址:this http URL
介绍了一种名为 RealmDreamer 的技术,可以通过文本描述生成通用的正面视图 3D 场景,并且具备高质量和多样性。该技术利用先进的文本到图像生成器初始化 3D 平面,并通过多个视图进行 3D 修补和基于图像的扩散建模,从而生成富含几何结构的场景。最后,通过图像生成器的锐化样本对模型进行微调,而无需视频或多视角数据,同时还可以从单个图像合成 3D 场景。