大规模视频预测的贪心分层变分自编码器

Mar, 2021

大规模视频预测的贪心分层变分自编码器

Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction

Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

TL;DR介绍了一种基于 Greedy Hierarchical Variational Autoencoders (GHVAEs) 的高保真度视频预测模型，能够解决 GPU 或 TPU 的内存限制和大规模视频预测的优化难题，并在四个视频数据集上取得了 17-55% 的预测性能提升和 35-40% 更高的成功率。

Abstract

A video prediction model that generalizes to diverse scenes would enable intelligent agents such as robots to perform a variety of tasks via planning with the model. However, while existing video prediction models have produced promising results on small datasets, they suffer from seve

video prediction model deep hierarchical latent variable models greedy hierarchical variational autoencoders memory constraints large-scale video prediction

发现论文，激发创造

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

利用 VQVAE 模型预测视频

本文提出了一种基于 VQ-VAE 的视频预测方法，将高分辨率视频压缩为一组分层多尺度离散潜在变量，然后应用可扩展自回归生成模型，相对于先前的工作，更关注大规模多样化的数据集，并使用人工评估验证了其效果。

Mar, 2021

可扩展的分解层次变分自编码器训练

本文介绍一种基于变分推断的分层生成过程的因式分解分层变分自编码器（FHVAE）模型，该模型在许多语音应用方面已被证明可行，但其原始论文中提出的训练算法不适用于规模更大的数据集。本文提出了一种分层采样训练算法来解决这一问题，并对不同类型的数据集进行了全面评估，证明了我们提出的算法对所有数据集都表现出所需的特性。

Apr, 2018

使用 VAEs 的任务通用分层人体动作先验

本研究提出了一种新的深度生成模型，利用组合的全局和局部潜空间进行粗细粒度建模，独立于特定任务地学习复杂的人体运动，并在视频中基于人体姿态估计、运动捕捉系统中模拟完整的身体运动并进行可信的关键帧动画辅助。该通用的人体运动模型可以修复损坏的人体动画，从不完整的观察中生成完整的运动。

Jun, 2021

时钟变分自编码器

介绍了 Clockwork VAE (CW-VAE) 作为视频预测模型，通过利用层次潜变量和时间抽象来处理长期依赖关系，对多个视频预测数据集进行了测试，并在预测远期的效果方面超过了现有的顶尖视频预测模型，同时还提出了一个长期视频预测的 Minecraft 基准。

Feb, 2021

非参数变分自编码器用于分层表示学习

本文提出了一种层次非参数变分自编码器模型，以结合树状结构的贝叶斯非参数先验和变分自编码器来实现无限灵活性的潜在表征空间，进而在视频表征学习上取得更好的效果。

Mar, 2017

S-HR-VQVAE: 序列层次残差学习向量量化变分自编码器用于视频预测

提出了一种名为 S-HR-VQVAE 的新模型，将层次化残差量化变分自编码器（HR-VQVAE）与新型时空 PixelCNN（ST-PixelCNN）相结合，具有更好处理视频预测任务的能力，并通过提出先进的训练方法，平衡整个模型参数的学习。

Jul, 2023

变分同编码器：从少量样本中学习高容量生成模型的元学习

使用 Variational Homoencoder（VHE）技术，在 Omniglot 数据集中建立层次化的 PixelCNN，其效果优于所有现有模型，同时在一次性生成和分类任务上实现强大性能。

Jul, 2018

视频预测模型作为通用视觉编码器

本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力，重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器，利用其捕捉关键的时空信息的能力，对实例分割等任务至关重要。受人类视觉研究的启发，尤其是共同命运的格式原则，该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器（3D VQVAE）的视频生成编码器模型，以输入帧作为条件，并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应，分析它们的潜在空间，并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果，为计算机视觉应用中的场景分析和分割工作提供了进展。

May, 2024

层次化 Patch VAE-GAN：从单一样本生成多样化视频

本文提出了一种使用基于 patch 的变分自编码器（VAE）生成多样化视频的新方法，并将其与更细节的 patch-GAN 相结合，以在保证多样性的同时生成高质量视频。实验结果表明，该方法不仅可以生成多样化的图像，还可以处理更具挑战性的视频领域。

Jun, 2020