EG4D:无分数蒸馏的 4D 对象明确生成
提出了一种高效的视频到 4D 对象生成框架 Efficient4D,能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像,通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型,大大提升了速度,同时保持创新视角合成质量。
Jan, 2024
在本研究中,我们提出了 STAG4D,这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架,用于高保真度的 4D 生成,通过利用多视图扩散模型初始化输入视频帧上的多视图图像,以确保多视图序列初始化的时间一致性,并应用得分蒸馏采样来优化 4D 高斯点云。
Mar, 2024
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。
May, 2024
基于大规模多模态数据集和扩散模型的进展,我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D,具备时空一致性、多视角一致性和生成效率方面的优势。
May, 2024
DreamGaussian4D 是一种高效的 4D 生成框架,它建立在 4D 高斯喷洒表示的基础上,通过显式地建模高斯喷洒中的空间变换,提高了 4D 生成的适用性,同时减少了优化时间,增加了对生成的三维动画的灵活控制,产生的动画网格在 3D 引擎中能被高效渲染。
Dec, 2023
提出了一种高效的稀疏控制视频到 4D 框架 (SC4D),通过解耦动作和外观,实现了 superior 的视频到 4D 生成,并引入了自适应高斯初始化和高斯对齐损失来解决形状退化问题,确保了学习的动作和形状的准确性,实验证明该方法在质量和效率方面优于现有方法,并且通过对运动和外观进行解耦,我们设计了一种新的应用,根据文本描述将学习到的运动无缝传输到各种 4D 实体。
Apr, 2024
为了解决现有动态场景生成方法的局限性,本研究提出一种新的流程,通过使用视频生成模型,摒弃了对多视图生成模型的依赖,从而充分利用了在多样真实世界数据集上训练的视频生成模型,生成具有增强的逼真度和结构完整性的动态场景,可从多个角度查看,为 4D 场景生成树立了新的标准。
Jun, 2024
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
Apr, 2024
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023