本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。
Mar, 2020
本研究提出了一种视频生成模型,通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性,所得的模型经过新的基准数据集的测试,取得了良好的效果。
Jun, 2022
本文提出了一种深度生成对抗网络(DIGAN),其利用隐性神经表示的视频生成,通过操作空间和时间坐标的不同方式来改善运动动力学,有效地缓解视频生成的问题。在多个数据集上,DIGAN 的性能均优于现有最先进的方法,可以生成更长的视频序列,并实现自然运动和非自回归视频生成等多种特性。
Feb, 2022
该研究基于 GAN,介绍了一种生成逼真的高分辨率时间流视频的方法,第一阶段生成真实内容的视频,第二阶段利用 Gram 矩阵提高了运动动态和最后生成视频的逼真性。实验证明,该方法优于现有的最新模型。
Sep, 2017
该研究提出了一种架构和训练方案,通过显式地建模去除和捕捉视频中语义一致的区域的演变来预测视频帧。
Apr, 2021
我们提出了一种对场景动态进行图像空间先验建模的方法,该先验是从包含自然振动运动(如树木、花朵、蜡烛和风中的衣物)的真实视频序列中提取的一系列运动轨迹学习得到的。通过一个经过训练的模型,我们使用一种频率协调扩散抽样过程来预测傅里叶域中每个像素长期运动表示,我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块,这些轨迹可以用于许多下游应用,例如将静止图像转换为无缝循环的动态视频,或者允许用户在真实图片中与物体进行真实交互。
Sep, 2023
通过训练条件生成模型从文本中提取静态和动态信息,结合 VAE 和 GAN 的混合框架,采用画线和过滤器来生成可信度高和多样性强的文本视频。
Oct, 2017
本文探讨了生成对抗网络 (GANs),将神经隐式表示与时间感知区别器相结合,发展了一种 GAN 框架,仅用单目视频合成了 3D 视频,能够学习可分解的 3D 结构和运动的丰富嵌入,实现了新的时空渲染视觉效果,同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。
本文提出了一种名为 DVD-GAN 的新模型,在复杂的 Kinetics-600 数据集上训练了大量生成对抗网络,成功地生成了高度复杂和逼真的视频图像。该模型通过对其鉴别器进行计算上的简化,可以扩展到更长和更高分辨率的视频中,并且在视频合成和预测方面取得了最新的最先进技术。
Jul, 2019
该论文提出了一种基于高层抽象建模视频预测问题的方法,利用人体姿态探测器作为监督信号,将视频预测问题分解为两个离散步骤,明确建模场景中的高层次结构,使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动,并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧,该方法通过呈现的定量和定性评估表明,其优于时下流行的视频预测方法。
Apr, 2017