利用整体属性控制的概率视频生成

Mar, 2018

利用整体属性控制的概率视频生成

Probabilistic Video Generation using Holistic Attribute Control

Jiawei He, Andreas Lehrmann, Joseph Marino, Greg Mori, Leonid Sigal

TL;DR提出了一种基于变分自编码器和循环神经网络的视频生成和未来预测框架，通过时间条件抽样和属性控制的方式提高视频生成的一致性和质量，能够在给定属性和 / 或第一帧的情况下生成多样但高度一致的视频序列。

Abstract

Videos express highly structured spatio-temporal patterns of visual data. A video can be thought of as being governed by two factors: (i) temporally invariant (e.g., person identity), or slowly varying (e.g., activity), attribute-induced appearance, encoding the persistent content of each frame, and (ii) an inter-frame motion or scene dynamics (e.g., encodin

video generation temporally-conditional sampling latent space rnn attribute controls

发现论文，激发创造

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

基于分层变分自编码器的视频时空解耦

本文提出了一种基于概率的方法，通过无监督视频数据学习可分离目标身份和姿态信息的表示。该方法利用具有因子化先验分布的深度生成模型来编码隐藏特征集中的时间不变性属性，并通过变化推理实现学习。实验结果表明，该模型成功分解其表示，并在转移学习任务中取得了改善的性能。

Dec, 2016

姿态决定一切：通过生成姿态预测实现视频预测

该论文提出了一种基于高层抽象建模视频预测问题的方法，利用人体姿态探测器作为监督信号，将视频预测问题分解为两个离散步骤，明确建模场景中的高层次结构，使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动，并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧，该方法通过呈现的定量和定性评估表明，其优于时下流行的视频预测方法。

Apr, 2017

利用 VQVAE 模型预测视频

本文提出了一种基于 VQ-VAE 的视频预测方法，将高分辨率视频压缩为一组分层多尺度离散潜在变量，然后应用可扩展自回归生成模型，相对于先前的工作，更关注大规模多样化的数据集，并使用人工评估验证了其效果。

Mar, 2021

基于文本的视频生成

通过训练条件生成模型从文本中提取静态和动态信息，结合 VAE 和 GAN 的混合框架，采用画线和过滤器来生成可信度高和多样性强的文本视频。

Oct, 2017

离散序列自编码器

这篇论文介绍了一种针对高维时序数据（如视频或音频）的 VAE 模型架构，学习了数据的潜在表示，可以近似地分解潜在的时间相关特征（动态）和随时间保持不变的特征（内容），从而进行内容和动态的部分控制，并给出了在人工生成的卡通视频片段和声音记录上的实验证据，进一步论证了随机 RNN 模型相对于确定性 RNN 对长序列的压缩与生成的效率更高的假设。

Mar, 2018

自回归视频模型的扩展

通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型，我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。

Jun, 2019

视频预测模型作为通用视觉编码器

本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力，重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器，利用其捕捉关键的时空信息的能力，对实例分割等任务至关重要。受人类视觉研究的启发，尤其是共同命运的格式原则，该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器（3D VQVAE）的视频生成编码器模型，以输入帧作为条件，并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应，分析它们的潜在空间，并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果，为计算机视觉应用中的场景分析和分割工作提供了进展。

May, 2024

使用 VAEs 的任务通用分层人体动作先验

本研究提出了一种新的深度生成模型，利用组合的全局和局部潜空间进行粗细粒度建模，独立于特定任务地学习复杂的人体运动，并在视频中基于人体姿态估计、运动捕捉系统中模拟完整的身体运动并进行可信的关键帧动画辅助。该通用的人体运动模型可以修复损坏的人体动画，从不完整的观察中生成完整的运动。

Jun, 2021

层次式生成模型用于可控语音合成

该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Oct, 2018