STDiff: 连续随机视频预测的时空扩散

Dec, 2023

STDiff: 连续随机视频预测的时空扩散

STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video Prediction

Xi Ye, Guillaume-Alexandre Bilodeau

TL;DR提出一种新颖的视频预测模型，该模型具有无限维度潜在变量，通过分解视频运动和内容信息，预测时态运动信息，以及在预测的运动特征和前一帧的条件下自回归生成视频帧。此模型具有更好的表达能力和更强的随机性学习能力，达到了最先进的视频预测性能，并能以任意高帧率进行时间连续预测。

Abstract

Predicting future frames of a video is challenging because it is difficult to learn the uncertainty of the underlying factors influencing their contents. In this paper, we propose a novel video prediction model, which has infinite-dimensional →

video prediction model latent variables neural stochastic differential equation image diffusion model temporal continuous prediction

发现论文，激发创造

随机潜在残差视频预测

介绍了一种基于残差更新规则的新型随机时间模型，可用于视频预测，并在复杂数据集上胜过先前的最先进方法。

Feb, 2020

随机扩散：一种用于随机时间序列预测的扩散概率模型

通过利用扩散概率模型和随机扩散（StochDiff）模型，本研究提出了一种新型方法，学习每个时间步长的数据先验知识，从而更好地对高度随机化的时间序列进行建模，通过实验验证了该方法在随机时间序列预测中的有效性，并展示了在实际医疗指导中的应用潜力。

Jun, 2024

考虑长期运动趋势的视频预测的状态空间分解模型

通过自适应分解的方法，我们提出了一种状态空间分解的随机视频预测模型，将整体视频帧生成分解为确定性外观预测和随机运动预测，从而增强模型对动态场景的泛化能力。实验结果表明，我们的模型在多个数据集上优于基线模型。

Apr, 2024

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

流媒体传播：使用传播模型进行在线视频编辑

我们提出了一种名为在线视频编辑的新任务，旨在在保持时间一致性的同时编辑流式帧。我们提出了 Streaming Video Diffusion（SVDiff）来解决此问题，它将紧凑的空间感知时间回归与现成的稳定扩散相结合，并采用分段级方案在大规模长视频上进行训练。通过这种简单而有效的设置，我们可以获得一个能够执行各种视频并具有时序连续性的单一模型。我们的实验表明，我们的模型能够以 512x512 的分辨率实现 15.2 FPS 的实时推理速度，对于长时间、高质量的视频编辑表现出色。

May, 2024

基于运动扩散的全局一致随机人体动作预测

该论文提出了一种基于扩散的随机人体运动预测框架 DiffMotion，旨在预测未来的姿势序列，并通过使用多阶段图卷积网络和方差调度器，使预测结果准确、逼真、一致，同时在准确度和保真度方面明显优于先前的方法，并通过基准数据集展现了强大的鲁棒性。

May, 2023

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024

SLAMP：随机潜在外观与运动预测

本文介绍了一种基于历史运动数据的视频预测模型，该模型在考虑动态背景的挑战性真实世界自动驾驶数据集上表现优异，相较于现有的随机模型表现显著提升。

Aug, 2021

StableVideo: 基于文本的一致性感知扩散视频编辑

通过引入时态依赖于现有的文本驱动扩散模型，使其能够生成一致的编辑对象外观，我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制，利用分层表示的概念将相邻帧的外观信息传播到下一帧，并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架，可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比，我们方法展示了卓越的定性和定量结果。

Aug, 2023