学习语义感知动态视频预测

CVPRApr, 2021

Learning Semantic-Aware Dynamics for Video Prediction

Xinzhu Bei, Yanchao Yang, Stefano Soatto

TL;DR该研究提出了一种架构和训练方案，通过显式地建模去除和捕捉视频中语义一致的区域的演变来预测视频帧。

Abstract

We propose an architecture and training scheme to predict video frames by explicitly modeling dis-occlusions and capturing the evolution of semantically consistent regions in the video. The scene layout (

video frames dis-occlusions semantic map optical flow content-aware inpainting

发现论文，激发创造

视频预测中传播和生成的分离

本文描述了一个用于高保真视频预测的计算模型，该模型从运动无关的生成中分离出运动特定的传播。我们引入了一个置信感知的变形算子，用于对未遮挡区域的像素预测输出进行门控，并由上下文编码器对受遮挡区域进行预测。与以往的作品不同，我们在变形步骤之后计算置信度，并使用单独的网络修补暴露区域。经验结果在合成和真实数据集上显示了我们的分离方法提供更好的遮挡映射，并与强基准相比产生更清晰，更逼真的预测。

Dec, 2018

用于语义视频分割的动态单元体结构搜索

本文旨在开发一种通用方法，以前沿的语义视频分割技术结构为基础，通过使用神经体系结构搜索解决方案，设计连接每帧网络输出的上下文块。利用通用的方法，该方法能在市区景观和 CamVid 数据集等常见基准测试中实现稳定和准确的结果，并且仅需要 2 GPU 天即可完成。

Apr, 2019

利用物体运动预测实现未来视频合成

利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测，实现较低的变形失真，并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。

Apr, 2020

面向场景的动态预测知识转移

通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理，提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法，并在实验中证明了其有效性。

Mar, 2016

物体中心视觉预测的物理动态学习

本研究提出了一种无监督的物体中心预测模型，通过学习物体之间的视觉动态来进行未来预测，实验结果表明该模型在生成视觉质量和物理可靠性方面优于现有技术。

Mar, 2024

生成具有场景动态的视频

利用大量未标记的视频来学习场景动态的模型，提出了一种具有时空卷积结构的生成对抗网络来生成视频，该模型能够更好地预测静态图像的合理未来，并且能够识别动作的有用特征，这表明场景动态是表示学习的一个有前途的信号。

Sep, 2016

语义流：从单目视频中学习动态场景的语义领域

本文中，我们提出了 Semantic Flow，一种从单 ocular videos 中学习动态场景的神经语义表示。与以往的 NeRF 方法不同，它通过包含丰富的三维运动信息的连续流来学习语义。我们考虑从二维视频帧中提取三维流特征时视线方向上的二维到三维模糊问题，将体积密度视为描述流特征对帧语义贡献的不透明度先验。我们首先学习流网络预测动态场景中的流，并提出流特征聚合模块从视频帧中提取流特征。然后，我们提出流注意模块从流特征中提取运动信息，随后是语义网络输出流的语义 logits。我们将 logits 与视线方向上的体积密度相结合，以在视频帧上监督流特征与语义标签的学习。实验结果表明，我们的模型能够学习多个动态场景，并支持一系列新任务，如实例级场景编辑、语义补全、动态场景跟踪和对新场景的语义适应。可在此 https URL 获取代码。

Apr, 2024

从视频中无监督学习物体结构和动力学

本研究针对无监督的视频对象结构和动态提取及预测的挑战，采用基于关键点的图像表示方法，并在关键点的动力学模型上进行学习，以实现像素空间中的稳定学习和错误复合的避免。该方法在像素级视频预测和需要物体级运动动态理解的下游任务方面均优于非结构化表示，并在多个数据集和任务中进行了评估和验证。

Jun, 2019

自然视频序列预测的动作与内容分解

提出了一种利用深度神经网络预测自然视频序列未来帧的方法，通过运动和内容分解进行像素级预测，该模型基于编码器 - 解码器卷积神经网络和卷积 LSTM，同时独立捕捉图像的空间布局和相应的时间动态，并在多个时间步长上进行端到端训练。

Jun, 2017

外观和运动条件下的视频预测

该研究介绍了一种通过给定外观和运动条件生成未来图像的方法，在条件不确定性下有着很好的表现，通过开发创新的条件方案，结合对外观和动作的识别，能够更好地进行视频预测，已在面部表情和人类动作数据集上进行了验证。

Jul, 2018