基于分层变分自编码器的视频时空解耦

Dec, 2016

基于分层变分自编码器的视频时空解耦

Disentangling Space and Time in Video with Hierarchical Variational Auto-encoders

Will Grathwohl, Aaron Wilson

TL;DR本文提出了一种基于概率的方法，通过无监督视频数据学习可分离目标身份和姿态信息的表示。该方法利用具有因子化先验分布的深度生成模型来编码隐藏特征集中的时间不变性属性，并通过变化推理实现学习。实验结果表明，该模型成功分解其表示，并在转移学习任务中取得了改善的性能。

Abstract

There are many forms of feature information present in video data. Principle among them are object identity information which is largely static across multiple video frames, and →

video data object identity object pose deep generative model transfer learning

发现论文，激发创造

基于解缠识别和非线性动力学模型的无监督学习

本文介绍了一种用于无人监督学习序列数据的框架 ——Kalman 变分自编码器，该框架在描述视频中的动态变化时不使用构成其帧的像素空间，而是用一个描述其物体非线性动态的隐藏空间。该模型在各种模拟的物理系统视频中进行端到端训练，在生成和缺失数据输入任务方面优于竞争方法。

Oct, 2017

视频自编码器：静态三维结构和运动的自我监督解缠

本论文提出了一个自监督学习的视频自编码器，能够从视频中学习出 3D 结构和相机姿态的解耦表示，通过重组这些表示来实现诸如新视角合成、相机姿态估计以及运动跟踪的任务。

Oct, 2021

利用整体属性控制的概率视频生成

提出了一种基于变分自编码器和循环神经网络的视频生成和未来预测框架，通过时间条件抽样和属性控制的方式提高视频生成的一致性和质量，能够在给定属性和 / 或第一帧的情况下生成多样但高度一致的视频序列。

Mar, 2018

使用独立预测来分离视频

我们提出了一种无监督的变分模型，用于将视频转换为独立因素，每个因素的未来可以从其过去预测，而无需考虑其他因素。我们展示了我们的方法常常学习到可解释为场景中对象的因素。

Jan, 2019

无监督学习序列数据的分离和可解释表示

本文提出一种分解的分层变分自动编码器，能够在无监督的情况下从序列数据中学习分离和可解释的表征。该模型基于多尺度信息的分层结构，实现了针对不同潜变量集合的序列依赖先验和序列无关先验。通过在两个语音语料库上的实验，表明该模型能够通过操纵不同的潜变量集合来转换说话人或语言内容，并在说话人验证和自动语音识别任务中优于基线模型。

Sep, 2017

使用 VAEs 的任务通用分层人体动作先验

本研究提出了一种新的深度生成模型，利用组合的全局和局部潜空间进行粗细粒度建模，独立于特定任务地学习复杂的人体运动，并在视频中基于人体姿态估计、运动捕捉系统中模拟完整的身体运动并进行可信的关键帧动画辅助。该通用的人体运动模型可以修复损坏的人体动画，从不完整的观察中生成完整的运动。

Jun, 2021

姿态决定一切：通过生成姿态预测实现视频预测

该论文提出了一种基于高层抽象建模视频预测问题的方法，利用人体姿态探测器作为监督信号，将视频预测问题分解为两个离散步骤，明确建模场景中的高层次结构，使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动，并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧，该方法通过呈现的定量和定性评估表明，其优于时下流行的视频预测方法。

Apr, 2017

生成模型中外观和视角的明确分离

通过一个双重潜在空间信息的生成模型，我们利用空间变换器和变分自动编码器构成了一种具有归纳偏差的 Variationally Inferred Transformational Autoencoder (VITAE) 方法用于实现解缠表示的学习，实验结果表明，我们的模型在 MNIST 图像上有效区分了数字类型和视觉风格，对于 CelebA 数据集，能够将人脸外形和姿态以及面部特征与面部形状分开。

Jun, 2019

层次化解耦空间 - 时间对比用于自监督视频表征学习

提出一种新的自监督视频表示学习技术，通过将学习目标分解为两个对比子任务并分层进行，强调空间和时间特征，从而鼓励多尺度理解。通过实验表明，可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义，并提出一种方式，使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。

Nov, 2020

自然数据中的时态稀疏编码非线性解缠

该论文介绍了一种基于 SlowVAE 的非监督学习模型，可以在自然视频中实现底层变化因素的非线性分离，并证明该模型在多个测试数据集上都超过了目前的最先进水平，并成功应用于其他具有自然动态的视频数据集。

Jul, 2020