ActAnywhere：主体感知视频背景生成

Jan, 2024

ActAnywhere：主体感知视频背景生成

ActAnywhere: Subject-Aware Video Background Generation

Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou...

TL;DRActAnywhere 是一种生成式模型，可以自动调整与前景主体运动相吻合的视频背景，同时遵循艺术家的创意意图，通过使用大规模视频扩散模型进行训练，它可以根据前景主体分割的序列和描述所需场景的图像作为条件，生成具有真实的前景 - 背景交互并符合条件帧的连贯视频，在广泛的评估中表现出比基准模型显著优越的性能，且具有泛化到各种样本的能力，包括非人类主体。

Abstract

Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with t

video background generation generative model foreground subject motion video diffusion models human-scene interaction

发现论文，激发创造

Anywhere: 一个可靠且多样化的前景条件图像修复的多智能体框架

Anywhere 是一种先进的多智能体框架，通过使用多个代理（如 VLM、LLM 和图像生成模型），解决了前景条件下图像修复的过度想像、前景 - 背景不一致和有限多样性等问题，使得前景条件下的图像修复产生更可靠和多样化的结果。

Apr, 2024

人体视频生成中增强逼真度的前景与背景动作解耦

通过采用不同的运动表示方法，我们引入了一种可同时学习前景和背景动力学的技术，该技术通过把它们的运动分离开来。我们的模型在真实世界的视频训练中生成了前景和背景动作之间协调的视频，并通过引入全局特征来扩展视频生成到更长的序列，以确保平滑的连续性。这种方法在产生展示前景动作和反应背景动态的视频方面优于之前的方法。

May, 2024

任何场景中的任意物体：照片般逼真的视频物体嵌入

提出了一种适用于现实视频模拟的通用框架，该框架通过整合真实对象、估计天空和环境光照分布、以及使用风格转移网络来实现几何真实性、光照真实性和照片真实性的增强，从而有效且经济地获得高质量的视频。

Jan, 2024

生成具有场景动态的视频

利用大量未标记的视频来学习场景动态的模型，提出了一种具有时空卷积结构的生成对抗网络来生成视频，该模型能够更好地预测静态图像的合理未来，并且能够识别动作的有用特征，这表明场景动态是表示学习的一个有前途的信号。

Sep, 2016

基于行为条件的视频数据提升预测性能

介绍了一种新颖的行为条件视频生成框架 (ACVG)，通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系，以机器人的行为为条件生成视频序列，从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究，评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。

Apr, 2024

面向场景的人体运动合成生成网络

本文提出了一种新框架，将场景和人体运动相互作用考虑在内，使用生成任务将人体运动的分布因子分解，并使用基于 GAN 的学习方法来提高其有效性。文中讨论了两个数据集结果，涵盖了真实和合成环境。

May, 2021

置入任何物品的视频

一种名为 Place-Anything 的新颖且高效的系统，通过仅基于目标物体或元素的图片或文本描述实现将任何物体插入任何视频，提供了一种有效的解决方案来生成和编辑高质量的视频。

Feb, 2024

从一段视频中复制动作生成虚假动作视频

本文采用人工智能技术生成目标人物的视频，并提出了三个方面的挑战：将每个视频帧解构成前景和背景，提出一种理论驱动的 Gromov-Wasserstein 损失，对面部特征进行几何引导并使用本地 GANs 细化脸部、脚部和手部。实验结果表明，我们的方法能够生成具有逼真的目标人物的视频，忠实地复制源人物的复杂动作。

May, 2022

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

外观和运动条件下的视频预测

该研究介绍了一种通过给定外观和运动条件生成未来图像的方法，在条件不确定性下有着很好的表现，通过开发创新的条件方案，结合对外观和动作的识别，能够更好地进行视频预测，已在面部表情和人类动作数据集上进行了验证。

Jul, 2018