SimVP:更简单却更好的视频预测
该论文提出了一个基于视频预测的机器人操作基准测试,使用 11 个任务类别和 310 个任务实例定义来评估模型预测准确性及其相应执行成功率,通过分析五种高性能视频预测模型的效果,发现在建模视觉多样化环境时,规模可以提高感知质量,而不同的属性,如不确定性意识对计划性能的提升也是有帮助的。
Apr, 2023
提出一种新的概率视频模型,Video Pixel Network (VPN),它可以很好地估计视频像素点之间离散的联合分布,其在 Moving MNIST 和 Robotic Pushing 基准测试中都取得了最好的性能表现。
Oct, 2016
该研究引入了一种端到端可训练的双流视频预测框架 —— 基于运动矩阵的视频预测(MMVP),旨在应对视频预测中对象未来运动的推理问题并保持其在帧之间的一致性。通过构建与外观无关的运动矩阵,MMVP 将运动和外观信息分离,从而提高了视频预测的准确性和效率,并减小了模型尺寸。大量实验证明,MMVP 在公共数据集上以小得多的模型尺寸(84% 或更小)显著优于现有系统(PSNR 上大约提高了 1db,UCF Sports)。
Aug, 2023
Venn Prediction 是一种新的机器学习框架,用于产生校准良好的概率预测。本文基于神经网络提出了五种 VP 方法,通过实验评估它们在四个基准数据集上的性能,结果表明它们的输出在校准上表现出了优越性,相比传统的神经网络分类器有了明显的改进。
Dec, 2023
本文提出了一种名为 ViP-Mixer 的卷积混合器,用于视频预测,模拟了自编码器潜在空间中的时空演变,并通过在帧、通道和位置三个层次交错特征混合,取得了在包括合成和真实场景的三个基准视频数据集上的新的预测性能的最新成果。
Nov, 2023
本文提出了 PixelMotionCNN 的概念,并采用基于学习的框架进行视频压缩,该框架包括迭代分析 / 综合,二值化等组件,实验结果表明该方案与 H.264 编解码器具有相当的性能表现,为未来视频编码的进一步提高压缩效率和 功能提供了可能的新方向。
Apr, 2018
本文提出了 SimMIM 框架,通过探究每一个组件的简单设计方案,发现简单设计方案表现强劲,并在 ImageNet-1K 数据集上,使用 ViT-B 预训练和微调达到了 83.8%的 top-1 精度,并使用此方法促进 3B 模型(SwinV2-G)的训练,在四个代表性的视觉基准数据集中实现了最新的技术成果。
Nov, 2021
预测高维视频序列是一个异常困难的问题,由于不确定性,给定视频序列的可能未来数量随时间呈指数增长,尤其在从有限世界的快照中预测复杂的自然视频场景时更为明显。本文介绍了一系列改进现有工作的方法,有助于创建鲁棒的视频预测器(RoViPs)。我们通过深度感知和基于不确定性的重建损失的组合,展示了高质量的短期预测能力。利用基于注意力的跳跃连接允许输入特征的长程空间移动,进一步提高性能。最后,我们展示了通过使预测器对其自身的预测错误具有鲁棒性,可以使用迭代的逐步预测任务生成非常长且逼真的自然视频序列。
Aug, 2023
本文提出了一种用于盲视频时间一致性的方法,该方法旨在解决仅在每个视频帧上独立应用图像处理算法导致的时间不一致问题。我们展示了通过在 Deep Video Prior(DVP)视频上训练卷积神经网络实现时间一致性的方法,并针对挑战性的多模态不一致性问题提出了一种经过精心设计的迭代加权训练策略。我们通过 7 个计算机视觉任务的广泛定量和感知实验展示了我们的方法的有效性,并证明了我们的方法在盲视频时间一致性方面优于现有技术水平。
Jan, 2022
本文的目的在于提出一种名为 SV2P 的模型,该模型在真实世界的视频数据中获得了可靠的、有多个可行未来的预测结果,相比于传统的视频预测模型,我们的模型明显提升了预测效果。
Oct, 2017