GenDeF: 学习生成变形场进行视频生成

Dec, 2023

GenDeF: 学习生成变形场进行视频生成

GenDeF: Learning Generative Deformation Field for Video Generation

Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi...

TL;DR通过使用生成变形场的方法，我们提出了一种全新的视频生成视角，可以有效地利用一张静态图像进行视频合成以提高视觉质量，并且实现对视频的内容和动作的解耦，使用户可以通过处理对应的静态图像来处理合成的视频，从而方便了许多应用如视频编辑、关键点跟踪和视频分割。

Abstract

We offer a new perspective on approaching the task of video generation. Instead of directly synthesizing a sequence of frames, we propose to render a video by warping one →

video generation warping generative deformation field disentanglement static image

发现论文，激发创造

CoDeF: 内容变形字段用于时间一致的视频处理

通过引入内容变形场 CoDeF 作为新型视频表示方式，可以将图像算法应用于视频处理，并具有超过现有视频转换方法的帧间一致性。

Aug, 2023

GauFRe：用于实时动态新视角合成的高斯变形场

使用可变形 3D 高斯方法进行动态场景重建，将高斯飞溅效果扩展以适应通过多层感知器定义的时间相关变形场的可变形高斯集合的表示，同时使用静态高斯点云允许多层感知器集中其表示能力，最终优化得到与状态最前沿的动态神经辐射场方法相媲美且具有更快的优化和渲染速度。

Dec, 2023

通用可变形卷积的视频帧插值

本论文提出了一种基于广义可变形卷积的新的视频帧插值方法，该方法可以学习运动信息并自由选择时空采样点，经过广泛的实验证明，该方法在处理复杂运动时表现出类似于最先进技术的性能。

Aug, 2020

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

生成渲染：可控的 4D 引导视频生成与 2D 扩散模型

通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合，我们提出了一种新的方法来自动化计算机生成的视频的创作过程，并输出高质量和时间上一致的帧。

Dec, 2023

深度场网络用于多视角场景的通用表示

提出了一种使用 Transformer 架构学习隐式多视图一致场景表示并引入一系列 3D 数据增强技术的方法来增加视角多样性的深度估计网络，同时介绍了引入视角合成作为辅助任务，该网络在不使用显式几何约束的情况下在立体和视频深度估计方面取得了最先进的结果，并在零样本领域泛化方面有了显著的提高。

Jul, 2022

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

图像、3D 动画和视频的条件生成建模

通过探索条件生成模型的新的形式和在图像、3D 动画和视频中的创新应用，本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构，并应用编码器 - 解码器结构进行生成任务和 3D 内容操作。在所有情况下，我们都将条件信息纳入生成过程中，以提高视觉数据的合成效率和生成内容的质量。

Oct, 2023

三维感知视频生成

本文探讨了生成对抗网络 (GANs)，将神经隐式表示与时间感知区别器相结合，发展了一种 GAN 框架，仅用单目视频合成了 3D 视频，能够学习可分解的 3D 结构和运动的丰富嵌入，实现了新的时空渲染视觉效果，同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。

Jun, 2022

4DGen: 基于时空一致性的基于地面的 4D 内容生成

4DGen 是一种新颖的综合框架，将 4D 内容创建任务拆分为多个阶段，利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分，使用动态 3D Gaussians 构建 4D 表示，在训练期间利用渲染进行高分辨率监督，从而实现了高质量的 4D 生成，并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验，相比现有基线方法，在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果，最重要的是，我们的方法支持基于实际场景的生成，为用户提供了增强控制，这是以前方法难以实现的特点。

Dec, 2023