- ICCV用显式的程序化知识引导视频预测
我们提出了一种将领域的程序化知识集成到深度学习模型中的通用方法,并通过基于物体为中心的深度模型对视频预测进行应用,表明这比仅使用数据驱动模型能够获得更好的性能。我们开发了一种使潜在空间解缠结的架构,以利用集成的程序化知识,并建立了一个允许模 - Ctrl-V: 用边界框控制的对象动作实现更高保真度的视频生成
使用像素级渲染的二维或三维边界框作为条件,提出了一种可控视频生成模型,并创建了一个边界框预测器,可以预测 25 帧剪辑中每帧的多达 15 个边界框。在 KITTI、Virtual-KITTI 2 和 BDD100k 等三个著名视频数据集上进 - 基于几何和时间条件的长期期货预测
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好 - 具有随机插值和 Föllmer 过程的概率预测
我们提出了一个基于生成模型的动力系统概率预测框架,将预测问题描述为从当前状态给定的未来系统状态的条件分布中进行采样,并证明了该框架在复杂的高维预测问题上的实用性。
- 滚动扩散模型
滚动扩散是一种新方法,通过滑动窗口去噪过程,采用滑动窗口逐渐增加帧之间的噪声,从而反映序列中较晚出现的帧对未来的不确定性,实证结果表明,在复杂的时间动态下,滚动扩散优于标准扩散模型,尤其在视频预测和混沌流体动力学预测实验中得到了证实。
- 视频预测综述:从确定性到生成方法
该论文综述了视频预测领域的历史和现代工作,包括广泛应用的数据集和算法,并提出了一个以视频预测算法的随机性为中心的新的分类方法。该分类方法强调了从确定性到生成性预测方法的渐进转变,突显了方法的重大进展和转变。
- ViP-Mixer:视频预测的卷积混合器
本文提出了一种名为 ViP-Mixer 的卷积混合器,用于视频预测,模拟了自编码器潜在空间中的时空演变,并通过在帧、通道和位置三个层次交错特征混合,取得了在包括合成和真实场景的三个基准视频数据集上的新的预测性能的最新成果。
- 视频预测中带空间遮罩的逐对分层注意力
视频预测中,通过使用历史帧,采用 Pair-wise 关注层和空间掩蔽的方法,丰富了预测帧的纹理细节,并捕捉了时空动力学和运动趋势。
- ICCVMMVP: 基于动态矩阵的视频预测
该研究引入了一种端到端可训练的双流视频预测框架 —— 基于运动矩阵的视频预测(MMVP),旨在应对视频预测中对象未来运动的推理问题并保持其在帧之间的一致性。通过构建与外观无关的运动矩阵,MMVP 将运动和外观信息分离,从而提高了视频预测的准 - S-HR-VQVAE: 序列层次残差学习向量量化变分自编码器用于视频预测
提出了一种名为 S-HR-VQVAE 的新模型,将层次化残差量化变分自编码器(HR-VQVAE)与新型时空 PixelCNN(ST-PixelCNN)相结合,具有更好处理视频预测任务的能力,并通过提出先进的训练方法,平衡整个模型参数的学习。
- 被遮挡视频预测的快速傅里叶 Inception 网络
为了解决视频帧预测任务中的连续复杂运动和场景遮挡问题,我们开发了基于全卷积快速傅里叶 Inception 网络(FFINet)的视频预测方法,该方法包括遮挡修复器和时空转换器等两个组件,并将恢复损失纳入目标函数进行模型优化来生成更逼真、高质 - IJCAI带有局部 - 全局上下文引导的视频扩散模型
本研究提出一种局部 - 全局上下文引导的视频扩散模型 (LGC-VD),旨在在有条件 / 无条件的情况下捕获多感知条件,以产生高质量的视频。通过实验,证明此方法在视频预测、插值和无条件视频生成方面具有优异的性能。
- ICLR基于控制的视频预测基准测试
该论文提出了一个基于视频预测的机器人操作基准测试,使用 11 个任务类别和 310 个任务实例定义来评估模型预测准确性及其相应执行成功率,通过分析五种高性能视频预测模型的效果,发现在建模视觉多样化环境时,规模可以提高感知质量,而不同的属性, - MS-LSTM: 探索视频预测领域的时空多尺度表示
本文介绍了一种新的视频预测模型 ——MS-LSTM,该模型采用多尺度空间和时间结构,在充分捕捉时空上下文信息方面具有高效和优秀的性能。与现有的 RNN 模型不同的是,MS-LSTM 使用 LSTMs 和不同的卷积内核设计空间和时间尺度,实现 - CVPR一种动态的多尺度体素流网络用于视频预测
采用动态多尺度体素流网络(DMVFN)进行视频预测,避免传统方法存在的大模型和额外输入问题,其核心是一种可微路由模块,通过选择不同的自适应子网络进行输入,比 Deep Voxel Flow 快一倍,且能够超过基于迭代的 OPT 最新技术。
- TKN: 基于 Transformer 的关键点预测网络用于实时视频预测
本文介绍了一种基于 transformer 框架的关键点预测神经网络,该网络是一种无监督学习方法,通过约束信息提取和并行预测方案来提高预测过程,是目前我们所知的第一个实时视频预测解决方案,能够以比现有方法快 11 倍的速度进行预测,并将内存 - CVPRMOSO:对视频预测进行运动、场景和对象的分解
该研究提出了一种基于 MOtion,Scene 和 Object 分解的框架(MOSO)用于视频预测,并在多个基准测试中取得了最先进的性能表现。
- ICLRSlotFormer: 使用以物体为中心的模型进行无监督视觉动态模拟
本文介绍了一种基于 SlotFormer 的 Transformer 自回归模型,利用学习到的目标中心表示来模拟物体间的关系,成功地应用于视频预测和 VQA 等多个领域,并表明它作为模型为基础的规划世界模型的能力与针对该任务专门设计的方法相 - 长期视频预测的时间一致性视频 Transformer
通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验,我们提出了一种名为 TECO 的模型,它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性,不仅在简单的迷宫和大型 3D 世界中,而且在真实世界的复杂视频中 - CVPR通过视频帧插值优化视频预测
通过基于已经训练好的可微分视频帧插值模块的优化框架进行视频预测,不需要训练数据集也不需要附加信息,并且在诸多数据集上取得了良好的预测结果。