将高斯函数对齐：使用动态三维高斯函数和组合扩散模型的文本到四维转换

Dec, 2023

将高斯函数对齐：使用动态三维高斯函数和组合扩散模型的文本到四维转换

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis

TL;DR通过使用得分蒸馏方法，我们在尚未充分开发的文本到四维场景设置中，通过引入额外的时间维度，利用文本引导的四维化方法合成动态、动画的三维物体。我们的方法将文本到图像、文本到视频和三维全景扩散模型结合起来，以在四维物体优化过程中提供反馈，从而同时强化时间一致性、高质量的视觉外观和逼真的几何形状。

Abstract

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4d setting and synthesize dynamic, animated 3D objects using →

text-to-4d score distillation 3d object synthesis multiview diffusion models 4d animations

发现论文，激发创造

PLA4D：用于文字到 4D 高斯雨滴落点的像素级对齐

基于文本的 4D 合成一直是一个具有挑战性的任务，本文提出了 Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D) 方法，通过使用文本到视频帧作为像素对齐目标，生成静态的 3D 对象，并注入运动，有效解决了 Score Distillation Sampling 技术在文本到 4D 合成中的问题。

May, 2024

STAG4D：空间 - 时间定位生成的 4D 高斯

在本研究中，我们提出了 STAG4D，这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架，用于高保真度的 4D 生成，通过利用多视图扩散模型初始化输入视频帧上的多视图图像，以确保多视图序列初始化的时间一致性，并应用得分蒸馏采样来优化 4D 高斯点云。

Mar, 2024

文本和图像引导的 4D 场景生成的统一方法

通过使用扩散生成模型，我们提出了 Dream-in-4D 方法，可以有效地实现从文本和图像生成动态的 3D 场景，该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究，我们证明了与基线方法相比，我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示，我们的方法还可以轻松应用于可控的生成，其中外观由一个或多个图像定义，无需修改运动学习阶段。因此，我们的方法首次提供了一种统一的方法，用于文本到 4D、图像到 4D 和个性化 4D 生成任务。

Nov, 2023

CG3D: 通过高斯喷洒实现文本到三维的组合生成

提出了 CG3D 方法，通过使用显式高斯辐射场来生成可扩展的三维资产，解决了基于文本的三维生成的限制，能够产生详细的多物体场景，并通过使用显式表示构建指导框架，在对象组合和物理准确性方面展示了领先于现有模型的结果。

Nov, 2023

EG4D：无分数蒸馏的 4D 对象明确生成

借鉴视频扩散模型的最新进展，我们提出了 DG4D，一种新颖的多阶段框架，通过明确从一个输入图像生成多视角视频来生成高质量和一致的 4D 资产，该框架在生成质量方面超过了基准方法。

May, 2024

SC4D：稀疏控制的视频到 4D 生成和运动转换

提出了一种高效的稀疏控制视频到 4D 框架 (SC4D)，通过解耦动作和外观，实现了 superior 的视频到 4D 生成，并引入了自适应高斯初始化和高斯对齐损失来解决形状退化问题，确保了学习的动作和形状的准确性，实验证明该方法在质量和效率方面优于现有方法，并且通过对运动和外观进行解耦，我们设计了一种新的应用，根据文本描述将学习到的运动无缝传输到各种 4D 实体。

Apr, 2024

4D-fy: 使用混合分数蒸馏抽样实现文本到 4D 生成

使用混合得分蒸馏取样的方法，我们展示了具有引人注目外观、3D 结构和动态的 4D 场景的合成。

Nov, 2023

4DGen: 基于时空一致性的基于地面的 4D 内容生成

4DGen 是一种新颖的综合框架，将 4D 内容创建任务拆分为多个阶段，利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分，使用动态 3D Gaussians 构建 4D 表示，在训练期间利用渲染进行高分辨率监督，从而实现了高质量的 4D 生成，并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验，相比现有基线方法，在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果，最重要的是，我们的方法支持基于实际场景的生成，为用户提供了增强控制，这是以前方法难以实现的特点。

Dec, 2023

从单视角视频快速动态生成三维物体

提出了一种高效的视频到 4D 对象生成框架 Efficient4D，能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像，通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型，大大提升了速度，同时保持创新视角合成质量。

Jan, 2024

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022