基于文本的 4D 动态场景生成
Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法,利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致,同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度,多视角一致性和多样性的真实感 3D 场景。
May, 2023
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023
提出了一种可控的文本到三维头像生成方法 Text2Control3D,利用 ControlNet 生成视角感知图像,并通过交叉注意力注入可控的面部表情和外貌,通过高斯潜变量的低通滤波解决了视角不可知纹理问题,以及通过学习图片形变表构建三维头像。
Sep, 2023
提出了一种新的 3D 视频合成方法,使用神经辐射场表示动态实景,并使用一种紧凑的表现方式,能够高质量地合成视图和插值运动,其动态场景建模方法在视角合成和动态场景表示方面都表现良好。
Mar, 2021
通过轨迹条件下的文本到 4D 生成,我们提出了一种将运动分解为全局和局部组件的方法,该方法通过文本到视频模型的监督来学习全局轨迹参数化的边界框的刚性变换以及适应于全局轨迹的局部变形,并在合成场景的任意轨迹上产生动画场景,从而提高了合成场景的逼真度和生成运动的数量。
Mar, 2024
引入动态神经辐射场(NeRF)作为人物中心视频表示,将视频编辑问题简化为三维空间编辑任务,通过变形场在整个视频上进行编辑。
Oct, 2023
利用文本驱动的 3D 场景生成技术,在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复,同时结合查询和聚合全局 3D 信息来生成高质量的新内容,并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。
Mar, 2024
通过文本动作描述将野外的单幅图像动画化为 3D 视频是我们引入的 Animate124(一个图像到 4D 的动画)的第一个工作,这是一个尚未深入探索但具有重要应用的问题。我们的 4D 生成利用了先进的 4D 网格动态神经辐射场(NeRF)模型,在三个不同阶段使用多个扩散先验进行优化。
Nov, 2023
我们介绍了 ShowRoom3D,这是一种从文本生成高质量的 3D 房间场景的三阶段方法。我们利用 3D 扩散先验 MVDiffusion 优化 3D 房间场景,并通过逐步扩展相机采样范围的渐进式视角选择和第二阶段的姿态变换方法,实现改善结构完整性、从任意视角提高清晰度、减少内容重复性和不同视角的一致性,显著超越了现有方法。
Dec, 2023
为了解决现有动态场景生成方法的局限性,本研究提出一种新的流程,通过使用视频生成模型,摒弃了对多视图生成模型的依赖,从而充分利用了在多样真实世界数据集上训练的视频生成模型,生成具有增强的逼真度和结构完整性的动态场景,可从多个角度查看,为 4D 场景生成树立了新的标准。
Jun, 2024