视觉动力学：基于分层交叉卷积网络的随机未来生成

Jul, 2018

视觉动力学：基于分层交叉卷积网络的随机未来生成

Visual Dynamics: Stochastic Future Generation via Layered Cross Convolutional Networks

Tianfan Xue, Jiajun Wu, Katherine L. Bouman, William T. Freeman

TL;DR该研究提出采用概率建模的方法，基于图像和动态信息，使用交叉卷积网络结构来合成多个可能的未来帧，并能够实现物体运动的真实感合成和学习出物体的外观与运动的紧凑编码。同时，提出了可视类比和视频外推等应用方案。

Abstract

We study the problem of synthesizing a number of likely future frames from a single input image. In contrast to traditional methods that have tackled this problem in a deterministic or non-parametric way, we propose to model future frames in a probabilistic manner. Our →

future frames probabilistic model cross convolutional network object appearance video extrapolation

发现论文，激发创造

视觉动态：通过交叉卷积网络进行概率未来帧合成

通过提出的概率模型和交叉卷积网络，我们可以从单个输入图像中合成多个可能的未来帧，该方法在合成 2D 图形和实际视频方面表现良好，并可用于视觉类比制作。

Jul, 2016

在条件随机网络下进行多模式运动预测

本文提出一种基于随机神经网络架构来处理多样性数据分布的方法，并通过实验验证应用于处理物体轨迹、人体关节轨迹和视频预测等问题中，取得了较好的实验效果。

May, 2017

VideoFlow: 用于随机视频生成的条件流模型

我们提出了一种基于归一化流的多帧视频预测方法，可以直接优化数据可能性并生成高质量的随机预测，该方法可以实现对于视频生成建模的可行且竞争性的方法。

Mar, 2019

基于随机帧预测的视觉表示学习

通过预测未来帧进行图像表示的无监督学习是一个有前景的方向，但仍然面临挑战。为了解决这一挑战，在本文中，我们重新审视了学习捕捉帧预测的不确定性的随机视频生成的思想，并探索了其在表示学习中的有效性。我们设计了一个框架，训练一个随机帧预测模型，学习帧之间的时间信息。此外，为了学习每一帧中的密集信息，我们引入了一个辅助的带蒙版图像建模目标，以及一个共享的解码器架构。我们发现这种架构能够以协同和高效的方式结合两个目标。我们在视频标签传播和基于视觉的机器人学习领域展示了我们框架的有效性，如视频分割、姿态跟踪、基于视觉的机器人运动和操作任务等。项目网页提供了代码：this https URL。

Jun, 2024

生成图像动力学

我们提出了一种对场景动态进行图像空间先验建模的方法，该先验是从包含自然振动运动（如树木、花朵、蜡烛和风中的衣物）的真实视频序列中提取的一系列运动轨迹学习得到的。通过一个经过训练的模型，我们使用一种频率协调扩散抽样过程来预测傅里叶域中每个像素长期运动表示，我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块，这些轨迹可以用于许多下游应用，例如将静止图像转换为无缝循环的动态视频，或者允许用户在真实图片中与物体进行真实交互。

Sep, 2023

动态未来网络：多样化的人类动作生成

本文提出了一种动态未来网络，通过构建具有非平凡建模能力的生成模型来显式关注运动异质性，在限定数据量的情况下，生成大量高质量、任意时间持续、在时空上具有令人信服的变化的运动，取得了优越的定性和定量结果。

Aug, 2020

视频场景理解的概率未来预测

本文提出了一种新颖的深度学习架构，用于从视频中进行概率未来预测。该模型可以预测城市场景中的未来语义、几何和运动，并将此表示用于控制自动驾驶车辆。

Mar, 2020

未来流嵌入视频预测的双运动 GAN

本文开发了一个双模 GAN 架构，采用双学习机制，明确地执行未来帧预测与视频中像素流的一致性，该模型通过新的概率运动编码器处理不同像素位置的自然运动不确定性，并使用对抗训练确保未来帧的预测及光流的预测具有真实感，实验证明该模型性能明显优于最先进的方法，具有较强的泛化能力。

Aug, 2017

学习基于能量的时空生成性卷积神经网络以获取动态模式

使用能量基础的时空生成 ConvNet 建立一个概率分布模型，可用于学习和合成存在于视频序列中的动态纹理和运动模式，该模型可从不完整的训练序列中学习和完成动态模式，并具有较好的生成能力。

Sep, 2019

动作检测的预测 - 校正网络

本研究提出了一种基于线性动态系统和非线性映射理论的预测 - 纠正神经网络模型，能够自适应地关注‘惊奇’的视频帧，优化学习效率。研究表明，该模型在三个挑战数据集上的表现与双流网络相当，而无需计算昂贵的光流技术。

Apr, 2017