Human4DiT: 基于 4D 扩散变换的自由观看人体视频生成

May, 2024

Human4DiT: 基于 4D 扩散变换的自由观看人体视频生成

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu

TL;DR我们提出了一种新颖的方法，可以从单个图像在任意视角下生成高质量、时空连贯的人类视频。我们的框架结合了 U-Nets 的精确条件注入和扩散变换器的在视角和时间上捕捉全局相关性的优势。核心是一个级联的 4D 变换器架构，可以分解关注点以跨视角、时间和空间维度，实现对 4D 空间的高效建模。我们通过将人类身份、相机参数和时间信号注入到相应的变换器中来实现精确的条件设定。为了训练这个模型，我们策划了一个跨图像、视频、多视角数据和 3D/4D 扫描的多维数据集以及多维训练策略。我们的方法克服了以 GAN 或基于 UNet 的扩散模型为基础的先前方法在处理复杂动作和视角变化时的局限性。通过广泛的实验证明，我们的方法能够合成逼真、连贯和自由观察的人类视频，为虚拟现实和动画等领域的先进多媒体应用铺平了道路。我们的项目网站为 https URL。

Abstract

We present a novel approach for generating high-quality, spatio-temporally coherent human videos from a single image under arbitrary viewpoints

human videos single image arbitrary viewpoints u-nets diffusion transformers

发现论文，激发创造

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

超人类：具有潜在结构扩散的超逼真人类生成

通过建立大规模人体数据集 HumanVerse，结合深度学习模型和结构引导生成器，我们提出了 HyperHuman 方法，实现了生成真实自然的人体图像。

Oct, 2023

Diffusion4D：基于视频扩散模型的快速时空一致的 4D 生成

基于大规模多模态数据集和扩散模型的进展，我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D，具备时空一致性、多视角一致性和生成效率方面的优势。

May, 2024

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

EG4D：无分数蒸馏的 4D 对象明确生成

借鉴视频扩散模型的最新进展，我们提出了 DG4D，一种新颖的多阶段框架，通过明确从一个输入图像生成多视角视频来生成高质量和一致的 4D 资产，该框架在生成质量方面超过了基准方法。

May, 2024

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源，通过微调其多视图生成能力，生成一个大规模的合成多视图数据集，从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练，能够在几秒钟内从单张图像生成一个 3D 资源，并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能，用户 70％的时间更喜欢我们的结果。

Mar, 2024

ViVid-1-to-3：带视频扩散模型的新视角合成

利用预训练的视频扩散模型，我们演示了一种非常简单的方法，通过合成互补视角的扫描视频来生成新视角，从而实现高度一致的新视图合成。

Dec, 2023