从时间 - lapse 视频学习时间转换
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024
本研究提出了一种视频生成模型,通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性,所得的模型经过新的基准数据集的测试,取得了良好的效果。
Jun, 2022
提出了 MagicTime,这是一个从时间间隔视频学习真实世界物理知识并实现变形生成的模型。设计了 MagicAdapter 方案来解耦空间和时间训练,引入了 Dynamic Frames Extraction 策略来适应变形时间间隔视频,并引入了 Magic Text-Encoder 来改善对变形视频提示的理解。通过实验证明了 MagicTime 在生成高质量和动态变形视频方面的优越性和有效性,表明时间间隔视频生成是构建物理世界变形模拟器的有希望的路径。
Apr, 2024
本文提出了一种基于无监督方法的视频帧预测技术,相比直接预测未来帧中每个像素点,本文预测未来帧的变换过程,同时提出了一种新的评估协议,该方法在 UCF-101 数据集上进行了验证,在参数和计算成本上更加高效。
Jan, 2017
生成具有时间一致性和物理可行性的行为和物体状态转换的图像,利用视频数据集和条件扩散模型 GenHowTo,在各种对象和动作上展示出优秀的性能。
Dec, 2023
本研究提出了一种基于场景物体的运动特征的像素级未来预测方法,采用隐式预测物体的未来状态并考虑它们之间的相互作用,通过全局轨迹水平的潜在随机变量对任务多模态进行克服,并在两个数据集上进行了实证验证。
Aug, 2019
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
本文提出了一个两阶段的生成框架来解决图像到视频转换的问题,其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果,证明了我们方法的有效性。
Jul, 2018
利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020