利用整体属性控制的概率视频生成
本文提出了一种基于层次结构的潜变量模型来提高模型表达能力,减少模糊预测,用于视频序列的未来帧预测任务,经过实验证明本方法在不同数据集上优于现有的潜变量模型。
Apr, 2019
本文提出了一种基于概率的方法,通过无监督视频数据学习可分离目标身份和姿态信息的表示。该方法利用具有因子化先验分布的深度生成模型来编码隐藏特征集中的时间不变性属性,并通过变化推理实现学习。实验结果表明,该模型成功分解其表示,并在转移学习任务中取得了改善的性能。
Dec, 2016
该论文提出了一种基于高层抽象建模视频预测问题的方法,利用人体姿态探测器作为监督信号,将视频预测问题分解为两个离散步骤,明确建模场景中的高层次结构,使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动,并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧,该方法通过呈现的定量和定性评估表明,其优于时下流行的视频预测方法。
Apr, 2017
本文提出了一种基于 VQ-VAE 的视频预测方法,将高分辨率视频压缩为一组分层多尺度离散潜在变量,然后应用可扩展自回归生成模型,相对于先前的工作,更关注大规模多样化的数据集,并使用人工评估验证了其效果。
Mar, 2021
这篇论文介绍了一种针对高维时序数据(如视频或音频)的 VAE 模型架构,学习了数据的潜在表示,可以近似地分解潜在的时间相关特征(动态)和随时间保持不变的特征(内容),从而进行内容和动态的部分控制,并给出了在人工生成的卡通视频片段和声音记录上的实验证据,进一步论证了随机 RNN 模型相对于确定性 RNN 对长序列的压缩与生成的效率更高的假设。
Mar, 2018
本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力,重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器,利用其捕捉关键的时空信息的能力,对实例分割等任务至关重要。受人类视觉研究的启发,尤其是共同命运的格式原则,该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器(3D VQVAE)的视频生成编码器模型,以输入帧作为条件,并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应,分析它们的潜在空间,并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果,为计算机视觉应用中的场景分析和分割工作提供了进展。
May, 2024
本研究提出了一种新的深度生成模型,利用组合的全局和局部潜空间进行粗细粒度建模,独立于特定任务地学习复杂的人体运动,并在视频中基于人体姿态估计、运动捕捉系统中模拟完整的身体运动并进行可信的关键帧动画辅助。该通用的人体运动模型可以修复损坏的人体动画,从不完整的观察中生成完整的运动。
Jun, 2021
该研究提出了一种神经序列到序列的文本转语音模型,基于变分自动编码器(VAE)框架,通过两级分层潜变量,实现对生成语音中很少被训练数据标记的潜在属性的控制,包括口音、语速、噪声等,其中第一级为类别变量,第二级为多元高斯变量,通过高斯混合模型 (GMM) 实现。经广泛评估,该模型展现出控制这些潜在属性的能力。
Oct, 2018