可控的文本到三维生成:面对齐的高斯扩散
本文提出了一种基于文本引导扩散模型的3D场景生成、编辑和新视角合成方法,并重点讨论了3D一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
通过结合2D和3D扩散模型,Points-to-3D提出了一种灵活的框架,将稀疏但自由可用的3D点引入文本到3D生成过程中,实现形状可控且更逼真的3D生成。
Jul, 2023
提出了一种可控的文本到三维头像生成方法Text2Control3D,利用ControlNet生成视角感知图像,并通过交叉注意力注入可控的面部表情和外貌,通过高斯潜变量的低通滤波解决了视角不可知纹理问题,以及通过学习图片形变表构建三维头像。
Sep, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即Control3D,以增强用户的可控性。具体而言,我们通过改进的2D条件扩散模型(ControlNet)来引导作为NeRF参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
通过引入MVControl神经网络架构,我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件(如边缘图)的方法。通过我们的方法,实现了可控的多视角图像生成和视角一致的三维内容创作。
Nov, 2023
通过引入多视角ControlNet和强化学习模型ControlDreamer,本研究在文本指导下实现了创意几何和风格的3D建模,同时提出了一个全面的3D风格编辑基准,证明该方法在质量和度量上优于现有的文本生成3D方法。
Dec, 2023
在本文中,我们通过考虑视频生成器,使用高斯喷洒的3D重建算法,减少2D生成器网络的评估次数10-100倍,实现更高效的处理管道,提供更高质量、更少几何不一致性和更多可用的3D资源。
Feb, 2024
使用稀疏射线采样方法通过关键点监督,实现了在当前管道中显式注入来自检索参考对象的3D先验,以确保高质量和多样化的3D几何,同时保持2D扩散模型的生成质量和多视角一致性。
Mar, 2024
我们提出了一种新颖的技术,通过文本提示为输入的粗糙3D网格添加几何细节。我们的方法由三个阶段组成:首先,我们基于输入的粗糙几何和输入的文本提示生成一个与之相关的单视角RGB图像;其次,我们使用新颖的多视角法线生成架构共同生成六个不同视角的法线图像;最后,我们对网格进行优化,生成细致的几何输出。该方法在几秒钟内产生输出,并提供对生成的3D网格的粗略结构、姿势和所需细节的明确用户控制。
Jun, 2024
本研究解决了文本到3D内容生成中的“贾努斯”问题和优化3D高斯分裂表示的不足,通过多视角指导逐步构建3D模型以提高细节和准确性。此外,研究引入了一种新颖的稠密化算法,优化了生成模型的结构完整性和保真度,实验结果证明该方法显著提升了生成效率,训练时间仅需半小时。
Sep, 2024