将高斯函数对齐:使用动态三维高斯函数和组合扩散模型的文本到四维转换
基于文本的 4D 合成一直是一个具有挑战性的任务,本文提出了 Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D) 方法,通过使用文本到视频帧作为像素对齐目标,生成静态的 3D 对象,并注入运动,有效解决了 Score Distillation Sampling 技术在文本到 4D 合成中的问题。
May, 2024
在本研究中,我们提出了 STAG4D,这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架,用于高保真度的 4D 生成,通过利用多视图扩散模型初始化输入视频帧上的多视图图像,以确保多视图序列初始化的时间一致性,并应用得分蒸馏采样来优化 4D 高斯点云。
Mar, 2024
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023
提出了 CG3D 方法,通过使用显式高斯辐射场来生成可扩展的三维资产,解决了基于文本的三维生成的限制,能够产生详细的多物体场景,并通过使用显式表示构建指导框架,在对象组合和物理准确性方面展示了领先于现有模型的结果。
Nov, 2023
借鉴视频扩散模型的最新进展,我们提出了 DG4D,一种新颖的多阶段框架,通过明确从一个输入图像生成多视角视频来生成高质量和一致的 4D 资产,该框架在生成质量方面超过了基准方法。
May, 2024
提出了一种高效的稀疏控制视频到 4D 框架 (SC4D),通过解耦动作和外观,实现了 superior 的视频到 4D 生成,并引入了自适应高斯初始化和高斯对齐损失来解决形状退化问题,确保了学习的动作和形状的准确性,实验证明该方法在质量和效率方面优于现有方法,并且通过对运动和外观进行解耦,我们设计了一种新的应用,根据文本描述将学习到的运动无缝传输到各种 4D 实体。
Apr, 2024
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023
提出了一种高效的视频到 4D 对象生成框架 Efficient4D,能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像,通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型,大大提升了速度,同时保持创新视角合成质量。
Jan, 2024
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022