单帧布局生成多对象视频

May, 2023

Multi-object Video Generation from Single Frame Layouts

Yang Wu, Zhibin Liu, Hefeng Wu, Liang Lin

TL;DR该论文研究了视频生成，并着重简化生成条件。作者使用单个帧对象布局作为唯一条件，通过隐式神经表示和布局动态自我推理，提出了一种新的视频生成框架，能够合成全局场景和局部对象，实验结果表明，该模型比基准模型更加有效。

Abstract

In this paper, we study video synthesis with emphasis on simplifying the generation conditions. Most existing video synthesis models or datasets are designed to address complex motions of a single object, lacking

video synthesis multi-object videos implicit neural representations layout motion self-inference video recognition

发现论文，激发创造

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

单一语义标签地图的视频生成

该论文提出了一种全新的任务 —— 在 SINGLE 语义标签地图的条件下生成视频，这在生成过程中提供了灵活性和质量的良好平衡。通过将这一难题分解为两个子问题，并将语义标签图集成到流预测模块中以达到主要改进，该方法做出了优异成果，击败了所有竞争对手。

Mar, 2019

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023

基于版面的图像生成

Layout2Im 是一种基于布局的图像生成方法，将物体表示分解为指定和不确定部分，并使用卷积 LSTM 编码并解码整个布局，以生成准确且多样化的图像，提高了最佳 Inception 分数 24.66％至 28.57％。

Nov, 2018

从单个视频生成多样化视频

本文提出了非参数基线方法来解决单个视频生成及操作任务，相较于传统的基于 GAN 的方法能提供更高的性能和更快的运行速度，并且在视频类比和时空重新定位等方面表现突出。

May, 2022

解耦动态单目视频以进行动态视角合成

通过无监督学习方法，提出了一种基于分解动态物体运动和相机运动的动态视图合成方法，包括非监督表面一致性和基于路径的多视图约束，可实现准确的 3D 运动建模，从而提高合成质量并相比现有方法精确地生成场景流和深度

Apr, 2023

快速合成非正式视频

基于单目视频的全局静态场景模型和逐帧点云的动态内容的混合视频表示方法能够实时合成高质量的新视图，并且训练速度比现有方法快 100 倍。

Dec, 2023

利用物体运动预测实现未来视频合成

利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测，实现较低的变形失真，并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。

Apr, 2020

场景布局的端到端优化

提出一种基于变分生成模型和场景图条件的端到端场景布局合成方法，并使用可微分渲染模块优化生成的布局。实验表明，该模型可以更精确和多样地进行条件场景合成，并允许从各种输入形式生成样本化场景。

Jul, 2020

DreamScene4D: 从单目视频生成动态多物体场景

DreamScene4D 是一种能够从野外单眼视频中生成多个物体的三维动态场景的方法，通过设计 “分解 - 重组” 方案，将视频场景及每个物体的三维运动进行分解，并使用开放词汇遮罩跟踪和适应性图像扩散模型对视频中的物体和背景进行分割、追踪和完整修复。

May, 2024