从时间 - lapse 视频学习时间转换 | BriefGPT

ECCVAug, 2016

从时间 - lapse 视频学习时间转换

Learning Temporal Transformations From Time-Lapse Videos

Yipin Zhou, Tamara L. Berg

TL;DR本研究使用生成模型从时光缩影中计算得出物体变形，包括：生成单个物体的未来状态、生成两个不同时刻的物体状态以及在循环框架中递归生成未来状态，并通过定性和定量方法进行评估并与其他模型进行比较。

Abstract

Based on life-long observations of physical, chemical, and biologic phenomena in the natural world, humans can often easily picture in their minds what an object will look like in the future. But, what about computers? In this paper, we learn computational models of →

time-lapse videos generative models object transformations computational models prediction tasks

发现论文，激发创造

基于几何和时间条件的长期期货预测

该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用，探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战，并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划，实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。

Apr, 2024

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

生成动态场景的长视频

本研究提出了一种视频生成模型，通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性，所得的模型经过新的基准数据集的测试，取得了良好的效果。

Jun, 2022

MagicTime: 作为形变模拟器的延时摄影视频生成模型

提出了 MagicTime，这是一个从时间间隔视频学习真实世界物理知识并实现变形生成的模型。设计了 MagicAdapter 方案来解耦空间和时间训练，引入了 Dynamic Frames Extraction 策略来适应变形时间间隔视频，并引入了 Magic Text-Encoder 来改善对变形视频提示的理解。通过实验证明了 MagicTime 在生成高质量和动态变形视频方面的优越性和有效性，表明时间间隔视频生成是构建物理世界变形模拟器的有希望的路径。

Apr, 2024

基于转换的视频序列模型

本文提出了一种基于无监督方法的视频帧预测技术，相比直接预测未来帧中每个像素点，本文预测未来帧的变换过程，同时提出了一种新的评估协议，该方法在 UCF-101 数据集上进行了验证，在参数和计算成本上更加高效。

Jan, 2017

GenHowTo: 从教学视频中学习生成动作和状态转换

生成具有时间一致性和物理可行性的行为和物体状态转换的图像，利用视频数据集和条件扩散模型 GenHowTo，在各种对象和动作上展示出优秀的性能。

Dec, 2023

组合式视频预测

本研究提出了一种基于场景物体的运动特征的像素级未来预测方法，采用隐式预测物体的未来状态并考虑它们之间的相互作用，通过全局轨迹水平的潜在随机变量对任务多模态进行克服，并在两个数据集上进行了实证验证。

Aug, 2019

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

学习预测和优化残差运动用于图像生成视频

本文提出了一个两阶段的生成框架来解决图像到视频转换的问题，其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果，证明了我们方法的有效性。

Jul, 2018

利用物体运动预测实现未来视频合成

利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测，实现较低的变形失真，并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。

Apr, 2020