视频预测模型作为通用视觉编码器

May, 2024

视频预测模型作为通用视觉编码器

Video Prediction Models as General Visual Encoders

James Maier, Nishanth Mohankumar

TL;DR本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力，重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器，利用其捕捉关键的时空信息的能力，对实例分割等任务至关重要。受人类视觉研究的启发，尤其是共同命运的格式原则，该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器（3D VQVAE）的视频生成编码器模型，以输入帧作为条件，并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应，分析它们的潜在空间，并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果，为计算机视觉应用中的场景分析和分割工作提供了进展。

Abstract

This study explores the potential of open-source video conditional generation models as encoders for downstream tasks, focusing on instance segmentation using the BAIR Robot Pushing Dataset. The researchers propose using video prediction models as general →

open-source video conditional generation models instance segmentation visual encoders latent space pretext learning

发现论文，激发创造

利用 VQVAE 模型预测视频

本文提出了一种基于 VQ-VAE 的视频预测方法，将高分辨率视频压缩为一组分层多尺度离散潜在变量，然后应用可扩展自回归生成模型，相对于先前的工作，更关注大规模多样化的数据集，并使用人工评估验证了其效果。

Mar, 2021

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

VideoGPT: 使用 VQ-VAE 和 Transformers 生成视频

VideoGPT 是一种简单的架构，利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示，并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布，以帮助生成高保真的自然视频。

Apr, 2021

姿态决定一切：通过生成姿态预测实现视频预测

该论文提出了一种基于高层抽象建模视频预测问题的方法，利用人体姿态探测器作为监督信号，将视频预测问题分解为两个离散步骤，明确建模场景中的高层次结构，使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动，并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧，该方法通过呈现的定量和定性评估表明，其优于时下流行的视频预测方法。

Apr, 2017

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

深度生成式视频压缩

文章提出了一种基于深度生成模型和序列数据的变分自编码器模型，用于视频压缩，经测试取得了竞争性的压缩效果。

Oct, 2018

大规模视频预测的贪心分层变分自编码器

介绍了一种基于 Greedy Hierarchical Variational Autoencoders (GHVAEs) 的高保真度视频预测模型，能够解决 GPU 或 TPU 的内存限制和大规模视频预测的优化难题，并在四个视频数据集上取得了 17-55% 的预测性能提升和 35-40% 更高的成功率。

Mar, 2021

图像、3D 动画和视频的条件生成建模

通过探索条件生成模型的新的形式和在图像、3D 动画和视频中的创新应用，本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构，并应用编码器 - 解码器结构进行生成任务和 3D 内容操作。在所有情况下，我们都将条件信息纳入生成过程中，以提高视觉数据的合成效率和生成内容的质量。

Oct, 2023

用变分自编码器从静态图像中预测不确定的未来

该研究使用条件变分自编码器解决了计算机视觉系统中像素级别预测未来事件的问题，并通过训练多样的真实视频数据成功预测了大量场景中的行为，并且可应用于语义视觉任务。

Jun, 2016

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020