基于分层变分自编码器的视频时空解耦
本文介绍了一种用于无人监督学习序列数据的框架 ——Kalman 变分自编码器,该框架在描述视频中的动态变化时不使用构成其帧的像素空间,而是用一个描述其物体非线性动态的隐藏空间。该模型在各种模拟的物理系统视频中进行端到端训练,在生成和缺失数据输入任务方面优于竞争方法。
Oct, 2017
本论文提出了一个自监督学习的视频自编码器,能够从视频中学习出 3D 结构和相机姿态的解耦表示,通过重组这些表示来实现诸如新视角合成、相机姿态估计以及运动跟踪的任务。
Oct, 2021
提出了一种基于变分自编码器和循环神经网络的视频生成和未来预测框架,通过时间条件抽样和属性控制的方式提高视频生成的一致性和质量,能够在给定属性和 / 或第一帧的情况下生成多样但高度一致的视频序列。
Mar, 2018
我们提出了一种无监督的变分模型,用于将视频转换为独立因素,每个因素的未来可以从其过去预测,而无需考虑其他因素。我们展示了我们的方法常常学习到可解释为场景中对象的因素。
Jan, 2019
本文提出一种分解的分层变分自动编码器,能够在无监督的情况下从序列数据中学习分离和可解释的表征。该模型基于多尺度信息的分层结构,实现了针对不同潜变量集合的序列依赖先验和序列无关先验。通过在两个语音语料库上的实验,表明该模型能够通过操纵不同的潜变量集合来转换说话人或语言内容,并在说话人验证和自动语音识别任务中优于基线模型。
Sep, 2017
本研究提出了一种新的深度生成模型,利用组合的全局和局部潜空间进行粗细粒度建模,独立于特定任务地学习复杂的人体运动,并在视频中基于人体姿态估计、运动捕捉系统中模拟完整的身体运动并进行可信的关键帧动画辅助。该通用的人体运动模型可以修复损坏的人体动画,从不完整的观察中生成完整的运动。
Jun, 2021
该论文提出了一种基于高层抽象建模视频预测问题的方法,利用人体姿态探测器作为监督信号,将视频预测问题分解为两个离散步骤,明确建模场景中的高层次结构,使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动,并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧,该方法通过呈现的定量和定性评估表明,其优于时下流行的视频预测方法。
Apr, 2017
通过一个双重潜在空间信息的生成模型,我们利用空间变换器和变分自动编码器构成了一种具有归纳偏差的 Variationally Inferred Transformational Autoencoder (VITAE) 方法用于实现解缠表示的学习,实验结果表明,我们的模型在 MNIST 图像上有效区分了数字类型和视觉风格,对于 CelebA 数据集,能够将人脸外形和姿态以及面部特征与面部形状分开。
Jun, 2019
提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。
Nov, 2020
该论文介绍了一种基于 SlowVAE 的非监督学习模型, 可以在自然视频中实现底层变化因素的非线性分离, 并证明该模型在多个测试数据集上都超过了目前的最先进水平,并成功应用于其他具有自然动态的视频数据集。
Jul, 2020