学习动作先验的视频生成

Jun, 2024

Video Generation with Learned Action Prior

Meenakshi Sarkar, Devansh Bhardwaj, Debasish Ghose

TL;DR在考虑了相机运动或动作作为观察图像状态的一部分，并将图像和动作建模在多模态学习框架内的基础上，我们提出了三个模型：VG-LeAP 使用变分推断学习图像 - 动作潜在先验并将图像 - 动作对作为单一潜在随机过程生成的扩展状态；Causal-LeAP 建立了动作与观察到的图像帧之间的因果关系，学习基于观察到的图像状态的动作先验；RAFI 将增强的图像 - 动作状态概念与扩散生成过程中的流匹配相结合，证明了这种动作条件下的图像生成概念可以扩展到其他基于扩散的模型。通过对我们的新视频动作数据集 RoAM 进行详细的实证研究，我们强调了多模态训练在部分可观察视频生成问题中的重要性。

Abstract

stochastic video generation is particularly challenging when the camera is mounted on a moving platform, as camera motion interacts with observed image pixels, creating complex →

stochastic video generation camera motion spatio-temporal dynamics multi-modal learning action-conditioned image generation

发现论文，激发创造

使用学习的先验知识生成随机视频

本文提出一种无监督视频生成模型，该模型学习给定环境中的不确定性先验模型，通过从先验分布中取样并与未来帧的确定性估计相结合来生成视频帧。该方法方便易行，能够在各种数据集上进行端到端训练，并且即使在很多帧进入未来的情况下，样本生成的结果也经过了充分的测试且清晰度较高，比现有的方法更具优势。

Feb, 2018

基于行为条件的视频数据提升预测性能

介绍了一种新颖的行为条件视频生成框架 (ACVG)，通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系，以机器人的行为为条件生成视频序列，从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究，评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。

Apr, 2024

自回归视频模型的扩展

通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型，我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。

Jun, 2019

生成具有场景动态的视频

利用大量未标记的视频来学习场景动态的模型，提出了一种具有时空卷积结构的生成对抗网络来生成视频，该模型能够更好地预测静态图像的合理未来，并且能够识别动作的有用特征，这表明场景动态是表示学习的一个有前途的信号。

Sep, 2016

利用先验知识和状态转换解释视频动作推理

提出了一种基于场景图和深度学习的动作推理框架，通过先前的知识解释视频状态变化的语义级观察结果，该方法可以用逻辑规则和语义级变化观察结果解释其行动推理结果。

Aug, 2019

基于弱监督的动作转移学习用于随机人体动作预测

本文介绍了动作驱动的随机人体运动预测任务，提出了一种有效的多步预测模型和训练策略，结合深度学习模型和不同的时间编码模型以取得更好预测效果。

May, 2022

视频生成的马尔可夫决策过程

本研究提出基于 MDP 的视频生成问题解决方案，用于克服视频长度不可控和时间架构缺陷问题，结合 MoCoGAN 框架实现。实验结果表明该方案能够有效提高视频生成的质量。

Sep, 2019

外观和运动条件下的视频预测

该研究介绍了一种通过给定外观和运动条件生成未来图像的方法，在条件不确定性下有着很好的表现，通过开发创新的条件方案，结合对外观和动作的识别，能够更好地进行视频预测，已在面部表情和人类动作数据集上进行了验证。

Jul, 2018

学习预测和优化残差运动用于图像生成视频

本文提出了一个两阶段的生成框架来解决图像到视频转换的问题，其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果，证明了我们方法的有效性。

Jul, 2018

GenHowTo: 从教学视频中学习生成动作和状态转换

生成具有时间一致性和物理可行性的行为和物体状态转换的图像，利用视频数据集和条件扩散模型 GenHowTo，在各种对象和动作上展示出优秀的性能。

Dec, 2023