梦幻无人机
利用文本驱动的 3D 场景生成技术,在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复,同时结合查询和聚合全局 3D 信息来生成高质量的新内容,并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。
Mar, 2024
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023
Dream Fields 提出了一种结合神经渲染和多模态图像和文本表示的方法,能够通过自然语言描述合成各种几何形状和颜色的 3D 对象。
Dec, 2021
Text-to-3D 生成已经取得了显著的进展,但当需要在指定视点自定义特定外观时,仅仅依靠整体描述来生成 3D 对象时会出现挑战。在这个工作中,我们提出了 DreamView,一种文本到图像的方法,通过协作的文本指导注入模块灵活地注入视点特定和整体文本指导,从而实现多视图自定义同时保持整体一致性,在每个视图中平衡分离的内容操作和整体对象的全局一致性,从而实现自定义和一致性的双重成就。因此,DreamView 使艺术家能够创造性地设计 3D 对象,促进更具创新性和多样性的 3D 资产的创作。
Apr, 2024
通过 DreamControl 的两阶段 2D-lifting 框架,实现了在 3D 生成中解决几何不一致性的 Janus 问题,并生成出几何一致性和纹理保真度都很高的高质量 3D 内容。
Dec, 2023
用单一的输入图像或文本提示生成可以探索的带有环境动态的 4D 场景的方法。通过迭代修复和几何融合将输入图像扩展为静态的 3D 点云,然后使用质量细化技术并以从采样的相机轨迹渲染的静态 3D 场景为条件,生成带有动态视频集合的动画视频集合。最终优化包含动画视频集合的规范化 4D 场景表示,使用每个视频的运动嵌入和可见性蒙版来减轻不一致性,从而实现 3D 场景的自由视角探索,并且实验证明 VividDream 可以根据不同的真实图像和文本提示为人类观众提供引人入胜的 4D 体验。
May, 2024
通过使用场景图生成组成 3D 场景的图形图像扩散预训练模型,利用节点和边的信息,GraphDreamer 能够生成高保真的分解对象实体的组合性 3D 场景。
Nov, 2023
使用 ImageDream 创新的图像提示多视角扩散模型进行 3D 物体生成,通过提高视觉几何准确性来产生比现有最先进的图像条件方法更高质量的 3D 模型。
Dec, 2023
我们提出 MVDream,这是一个多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集,所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验,通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题,从而极大地提高了稳定性。最后,我们展示了多视图扩散模型也可以在少量样本设置下进行微调,用于个性化的 3D 生成,即 DreamBooth3D 应用中,在学习主体身份之后可以保持一致性。
Aug, 2023
通过利用预训练的 T2I 扩散模型,借助预定时间步长安排,将文本到 3D 优化提升为多视角图像到图像转换问题,我们提出了一种新的优化算法和实用的三阶段粗到精的文本到 3D 优化框架 DreamFlow,实现快速生成高质量、高分辨率(1024x1024)的 3D 内容。
Mar, 2024