- MaskViT: 视频预测的掩蔽视觉预训练
本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型,且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。
- 视频预测与填充的扩散模型
本文提出了一种名为 RaMViD 的随机掩码视频扩散模型,利用 3D 卷积将图像扩散模型扩展到视频领域,并引入了一种新的训练条件技术,通过改变所用的掩码,能够实现视频预测、填充和上采样,通过评估 RaMViD 在两个视频预测数据集上的表现, - SimVP:更简单却更好的视频预测
本文介绍了一个被称为 SimVP 的简单的视频预测模型,使用 CNN 构建,仅仅通过 MSE 损失进行端到端的训练,取得了在五个基准数据集上的最新成果,同时通过扩展实验,证明 SimVP 在现实世界数据集上具有强大的泛化能力和可扩展性,大大 - CVPRSTIP:高分辨率视频预测的时空信息保留和感知增强模型
本文提出了一种空时信息保留和感知增强的模型(STIP)来解决循环神经网络(RNNs)视频预测方法在高分辨率数据集中由于信息丢失问题和感知不敏感的均方误差(MSE)丢失函数而表现不佳的问题,并成功实现了比各种最先进方法更为精准的视频预测效果。
- MCVD:基于遮蔽条件视频扩散的预测、生成和插值
本论文提出了一种通用框架 Masked Conditional Video Diffusion(MCVD),使用基于概率条件得分的去噪扩散模型来处理所有视频合成任务,通过随机和独立的遮罩对历史或未来的帧进行条件设置,训练出一个能够执行广泛视 - ECCV时空视频推断
该研究提出了一种结合新视角合成和视频预测的方法,称之为 “空间和时间的视频外推”。该方法利用自我监督和空间和时间的综合信号,实现了在室内和室外真实环境数据集上优于或可与多种先进方法相媲美的性能。
- CVPR从视频中持续进行预测学习
本文主要研究了如何在实际应用中,处理环境持续变化的情况下,进行预测学习。作者提出了 Continual Predictive Learning (CPL) 方法,并在基于 RoboNet 和 KTH 的两个新基准测试中展示了该方法在视频预测 - VPTR 视频预测的高效 Transformer
本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块,用于视频未来帧预测,并构建了一个全自回归视频未来帧预测 Transformer 框架,另外还提出了一个非自回归视频预测 Transformer 框架, - ICCV基于层级变分神经不确定模型的随机视频预测
提出一种基于神经不确定性量化器(NUQ)的层次化变分框架,并利用深度贝叶斯图模型,从而准确地预测视频的未来帧,同时可以权衡 MSE 丢失,从而比现有的模型更有效地训练,提高生成视频的质量和多样性。
- ICCVSLAMP:随机潜在外观与运动预测
本文介绍了一种基于历史运动数据的视频预测模型,该模型在考虑动态背景的挑战性真实世界自动驾驶数据集上表现优异,相较于现有的随机模型表现显著提升。
- 高效视频预测的精准格点学习
该论文提出了一种新的网格关键点学习框架,通过引入随机性,生成长期高质量预测,有效地降低计算资源消耗,并在机器人辅助手术数据集上验证了该方法的有效性。
- FitVid: 像素级视频预测中的过拟合
本文提出一个名为 FitVid 的视频预测模型,通过提高参数效率和使用图像增强技术来缓解过拟合现象,从而在四个不同的视频预测基准测试中表现出优秀的质量。
- CVPR理解物体动态:交互式图像到视频合成
本文介绍了一种使用局部操纵来学习自然外观的全局关节,训练只需要移动物体的视频,而不需要了解物理场景底层的操纵。通过学习物体动力学的生成模型,响应用户互动,并了解相互关联的不同物体部位,该方法预测了静态图像和像素局部操纵后物体弯曲的时间变化, - CVPR对比对应关系:利用对应关系损失的视频预测
本文提出了一种简单的改变现有图像相似度度量标准的方法,通过使用光流匹配图像并测量对应像素的视觉相似度来使其更加鲁棒性地处理对象位置误差,并应用于各种视频预测任务和视频内插任务中,实现了简单的网络结构,取得了强大的表现。
- CVPRGATSBI:生成式面向智能体的时空对象交互
GATSBI 是一种生成模型,可以将原始观测序列转换为结构化的潜在表示,充分捕捉智能体行动的时空上下文,使用无监督的物体中心场景表示学习来分离活动代理,静态背景和被动对象,建模反映分解实体之间因果关系的交互,并预测物理上合理的未来状态,优于 - CVPR视频预测:通过记忆对齐学习长期运动上下文
该研究提出了一种基于长期记忆机制的运动上下文感知视频预测方法,通过引入长期运动上下文记忆(LMC-Memory)和记忆对查询分解,解决了在低维动态输入情况下预测高维、复杂运动上下文的难题。实验证明,该方法在长期情况下优于其他 RNN-bas - MotionRNN:基于时空变化运动的视频预测灵活模型
该论文提出了一种基于 MotionRNN 框架的视频预测方法,使用 MotionGRU 单元以及 Motion Highway,同时捕捉短时变化和运动趋势,适应不断变化的运动情况,在三项具有挑战性的基准测试中取得了显著的改进。
- 利用 VQVAE 模型预测视频
本文提出了一种基于 VQ-VAE 的视频预测方法,将高分辨率视频压缩为一组分层多尺度离散潜在变量,然后应用可扩展自回归生成模型,相对于先前的工作,更关注大规模多样化的数据集,并使用人工评估验证了其效果。
- 时钟变分自编码器
介绍了 Clockwork VAE (CW-VAE) 作为视频预测模型,通过利用层次潜变量和时间抽象来处理长期依赖关系,对多个视频预测数据集进行了测试,并在预测远期的效果方面超过了现有的顶尖视频预测模型,同时还提出了一个长期视频预测的 Mi - CVPR语义视频预测中的模块化行动概念建模
该研究介绍了使用语义动作标签作为反向问题进行预测的方法,提出了一种名为模块化动作概念网络的视频预测模型,该模型可以生成对应的未来帧且无需边界框,还可以用于物体检测和高层次的认知任务。