互动 3D:通过互动 3D 生成创造你想要的东西
本文介绍了一种名为 Coin3D 的新型可控交互式 3D 资产建模框架,该框架允许用户利用从基本形状组装而成的粗粒度几何代理控制 3D 生成,并引入交互式生成工作流,以支持在几秒钟内快速交互编辑本地部分,并提供快速响应的 3D 对象预览。通过对不同形状代理进行交互生成和编辑的广泛实验,证明了我们的方法在 3D 资产生成任务中具有优越的可控性和灵活性。
May, 2024
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
提出了 CG3D 方法,通过使用显式高斯辐射场来生成可扩展的三维资产,解决了基于文本的三维生成的限制,能够产生详细的多物体场景,并通过使用显式表示构建指导框架,在对象组合和物理准确性方面展示了领先于现有模型的结果。
Nov, 2023
基于 3D Gaussian Splatting 的 DragGaussian 框架,结合扩散模型,使用户能够对预训练的 3D 高斯对象模型进行基于拖动的编辑,通过多视角一致的编辑生成修改后的 2D 图像。
May, 2024
DreamGaussian4D 是一种高效的 4D 生成框架,它建立在 4D 高斯喷洒表示的基础上,通过显式地建模高斯喷洒中的空间变换,提高了 4D 生成的适用性,同时减少了优化时间,增加了对生成的三维动画的灵活控制,产生的动画网格在 3D 引擎中能被高效渲染。
Dec, 2023
使用部分图像、顶视图的布局信息和文本提示来控制和生成多模态条件下的 3D 场景,通过预训练的文本到图像模型微调,以及布局条件的深度估计和神经辐射场(NeRF),实现从给定条件生成 2D 图像和从 2D 图像生成 3D 场景,避免创建庞大的数据集,得到了定性和定量的实验结果,证明了该方法能够根据多模态条件生成多领域的 3D 场景。
Mar, 2024
本研究主要关注在控制性文本生成 3D 场景方面的多视图控制网络架构,该网络结合额外的输入条件,如边缘、深度、法线和素描图,使用局部和全局嵌入来控制基础扩散模型,并通过优化实现 3D 生成,最终实现了高质量、可控的 3D 内容的生成。
Mar, 2024
该论文提出了一种通用的多模态生成模型,通过共享潜在空间将 2D 模态和隐式 3D 表示耦合在一起,实现了通过简单地传播来自特定 2D 控制模态的编辑,从而实现了多样化的 3D 生成和操作。
Jul, 2022
通过结合扩散模型和 3D 高斯喷洒技术提出一种名为 ART3D 的新型框架,有效地通过创新的图像语义迁移算法来弥合艺术与现实图像之间的差距,并且通过利用深度信息和初始艺术图像生成点云地图来解决领域差异,并且提出了深度一致性模块来提高 3D 场景的一致性,最后,3D 场景作为优化高斯喷洒的初始点,实验结果表明与现有方法相比,ART3D 在内容和结构一致性指标上具有优越的性能,为生成高质量的 3D 艺术场景提供了创新解决方案,极大地推动了人工智能在艺术创作领域的发展。
May, 2024