SimVP：更简单却更好的视频预测

Jun, 2022

SimVP: Simpler yet Better Video Prediction

Zhangyang Gao, Cheng Tan, Lirong Wu, Stan Z. Li

TL;DR本文介绍了一个被称为 SimVP 的简单的视频预测模型，使用 CNN 构建，仅仅通过 MSE 损失进行端到端的训练，取得了在五个基准数据集上的最新成果，同时通过扩展实验，证明 SimVP 在现实世界数据集上具有强大的泛化能力和可扩展性，大大降低了训练成本。

Abstract

From cnn, RNN, to ViT, we have witnessed remarkable advancements in video prediction, incorporating auxiliary inputs, elaborate neural architectures, and sophisticated training strategies. We admire these progres

video prediction cnn simvp training strategies benchmark datasets

发现论文，激发创造

基于控制的视频预测基准测试

该论文提出了一个基于视频预测的机器人操作基准测试，使用 11 个任务类别和 310 个任务实例定义来评估模型预测准确性及其相应执行成功率，通过分析五种高性能视频预测模型的效果，发现在建模视觉多样化环境时，规模可以提高感知质量，而不同的属性，如不确定性意识对计划性能的提升也是有帮助的。

Apr, 2023

视频像素网络

提出一种新的概率视频模型，Video Pixel Network (VPN)，它可以很好地估计视频像素点之间离散的联合分布，其在 Moving MNIST 和 Robotic Pushing 基准测试中都取得了最好的性能表现。

Oct, 2016

MMVP: 基于动态矩阵的视频预测

该研究引入了一种端到端可训练的双流视频预测框架 —— 基于运动矩阵的视频预测（MMVP），旨在应对视频预测中对象未来运动的推理问题并保持其在帧之间的一致性。通过构建与外观无关的运动矩阵，MMVP 将运动和外观信息分离，从而提高了视频预测的准确性和效率，并减小了模型尺寸。大量实验证明，MMVP 在公共数据集上以小得多的模型尺寸（84% 或更小）显著优于现有系统（PSNR 上大约提高了 1db，UCF Sports）。

Aug, 2023

可靠的神经网络概率分类

Venn Prediction 是一种新的机器学习框架，用于产生校准良好的概率预测。本文基于神经网络提出了五种 VP 方法，通过实验评估它们在四个基准数据集上的性能，结果表明它们的输出在校准上表现出了优越性，相比传统的神经网络分类器有了明显的改进。

Dec, 2023

ViP-Mixer：视频预测的卷积混合器

本文提出了一种名为 ViP-Mixer 的卷积混合器，用于视频预测，模拟了自编码器潜在空间中的时空演变，并通过在帧、通道和位置三个层次交错特征混合，取得了在包括合成和真实场景的三个基准视频数据集上的新的预测性能的最新成果。

Nov, 2023

视频压缩的学习

本文提出了 PixelMotionCNN 的概念，并采用基于学习的框架进行视频压缩，该框架包括迭代分析 / 综合，二值化等组件，实验结果表明该方案与 H.264 编解码器具有相当的性能表现，为未来视频编码的进一步提高压缩效率和功能提供了可能的新方向。

Apr, 2018

SimMIM: 简易掩模图像建模框架

本文提出了 SimMIM 框架，通过探究每一个组件的简单设计方案，发现简单设计方案表现强劲，并在 ImageNet-1K 数据集上，使用 ViT-B 预训练和微调达到了 83.8％的 top-1 精度，并使用此方法促进 3B 模型（SwinV2-G）的训练，在四个代表性的视觉基准数据集中实现了最新的技术成果。

Nov, 2021

健壮视频预测器的自然视频序列长期预测

预测高维视频序列是一个异常困难的问题，由于不确定性，给定视频序列的可能未来数量随时间呈指数增长，尤其在从有限世界的快照中预测复杂的自然视频场景时更为明显。本文介绍了一系列改进现有工作的方法，有助于创建鲁棒的视频预测器（RoViPs）。我们通过深度感知和基于不确定性的重建损失的组合，展示了高质量的短期预测能力。利用基于注意力的跳跃连接允许输入特征的长程空间移动，进一步提高性能。最后，我们展示了通过使预测器对其自身的预测错误具有鲁棒性，可以使用迭代的逐步预测任务生成非常长且逼真的自然视频序列。

Aug, 2023

视频深度先验及其在视频一致性和传播中的应用

本文提出了一种用于盲视频时间一致性的方法，该方法旨在解决仅在每个视频帧上独立应用图像处理算法导致的时间不一致问题。我们展示了通过在 Deep Video Prior（DVP）视频上训练卷积神经网络实现时间一致性的方法，并针对挑战性的多模态不一致性问题提出了一种经过精心设计的迭代加权训练策略。我们通过 7 个计算机视觉任务的广泛定量和感知实验展示了我们的方法的有效性，并证明了我们的方法在盲视频时间一致性方面优于现有技术水平。

Jan, 2022

随机变分视频预测

本文的目的在于提出一种名为 SV2P 的模型，该模型在真实世界的视频数据中获得了可靠的、有多个可行未来的预测结果，相比于传统的视频预测模型，我们的模型明显提升了预测效果。

Oct, 2017