利用 VQVAE 模型预测视频

Mar, 2021

Predicting Video with VQVAE

Jacob Walker, Ali Razavi, Aäron van den Oord

TL;DR本文提出了一种基于 VQ-VAE 的视频预测方法，将高分辨率视频压缩为一组分层多尺度离散潜在变量，然后应用可扩展自回归生成模型，相对于先前的工作，更关注大规模多样化的数据集，并使用人工评估验证了其效果。

Abstract

In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress h

video prediction vector quantized variational autoencoders compressed latent space hierarchical set of multi-scale discrete latent variables kinetics-600

发现论文，激发创造

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

利用 VQ-VAE-2 生成多样高保真度图像

本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用，采用自回归先验信息，结合简单前馈编码器和解码器网络，以压缩的潜变量空间进行自动回归模型采样，同时使用多尺度层级 VQ-VAE 进行生成，取得比 Generative Adversarial Networks 更加优秀的样本生成品质。

Jun, 2019

S-HR-VQVAE: 序列层次残差学习向量量化变分自编码器用于视频预测

提出了一种名为 S-HR-VQVAE 的新模型，将层次化残差量化变分自编码器（HR-VQVAE）与新型时空 PixelCNN（ST-PixelCNN）相结合，具有更好处理视频预测任务的能力，并通过提出先进的训练方法，平衡整个模型参数的学习。

Jul, 2023

大规模视频预测的贪心分层变分自编码器

介绍了一种基于 Greedy Hierarchical Variational Autoencoders (GHVAEs) 的高保真度视频预测模型，能够解决 GPU 或 TPU 的内存限制和大规模视频预测的优化难题，并在四个视频数据集上取得了 17-55% 的预测性能提升和 35-40% 更高的成功率。

Mar, 2021

视频预测模型作为通用视觉编码器

本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力，重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器，利用其捕捉关键的时空信息的能力，对实例分割等任务至关重要。受人类视觉研究的启发，尤其是共同命运的格式原则，该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器（3D VQVAE）的视频生成编码器模型，以输入帧作为条件，并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应，分析它们的潜在空间，并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果，为计算机视觉应用中的场景分析和分割工作提供了进展。

May, 2024

分层量化自编码器

该研究使用层次 VQ-VAE 近似压缩图像，同时保持感知质量和抽象特征。在 CelebA 和 MNIST 数据集上进行了定性和定量评估。

Feb, 2020

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017

姿态决定一切：通过生成姿态预测实现视频预测

该论文提出了一种基于高层抽象建模视频预测问题的方法，利用人体姿态探测器作为监督信号，将视频预测问题分解为两个离散步骤，明确建模场景中的高层次结构，使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动，并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧，该方法通过呈现的定量和定性评估表明，其优于时下流行的视频预测方法。

Apr, 2017

用变分自编码器从静态图像中预测不确定的未来

该研究使用条件变分自编码器解决了计算机视觉系统中像素级别预测未来事件的问题，并通过训练多样的真实视频数据成功预测了大量场景中的行为，并且可应用于语义视觉任务。

Jun, 2016

CV-VAE：潜在生成视频模型的兼容视频变分自编码器

我们提出了一个名为 CV-VAE 的视频 VAE 方法，通过与给定图像 VAE 进行潜在空间的兼容性来实现训练视频模型，并展示了其在视频生成和压缩方面的有效性。

May, 2024