少样本视频到视频合成
提出了一种新颖的 vid2vid 框架,它使用所渲染的所有过去帧来生成当前帧,并通过引入物理基础的 guidance image 来提高 3D 世界的一致性,并使用新颖的神经网络架构利用存储在 guidance image 中的信息。
Jul, 2020
本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法,可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频,此方法成功优化了视频生成技术的最新发展状态,并被应用于未来视频预测。
Aug, 2018
本文提出了一种名为 Fast-Vid2Vid 的新型空间时间压缩框架,旨在减少计算资源并加速推理,通过对生成模型的数据方面进行压缩处理,使模型实现低分辨率数据流合成 / 高效中间帧插值,并在标准基准测试中实现约 20 FPS 的实时性能,同时在单个 V100 GPU 上节约约 8 倍的计算成本。
Jul, 2022
通过视频重建一个可动画的模型,运用深度学习网络训练产生了一种体积式 3D 人体表达,实现了新颖的姿态 / 视角的综合和不需要预先装配模型的图像合成。研究证明了该模型的有效性并展示了不同人的视频实验结果以及模型的运用:运动重定向和子弹时间效果。
Dec, 2020
本研究提出了一种名为 OneShotA2V 的新方法,该方法利用具有表现性面部组件的运动的课程学习,仅使用一个听觉信号和一个未见过的个人图像,生成任意长度的交谈人视频,实验评估表明该方法在多个量化指标上表现优越。
Dec, 2020
使用人脸先验信息的新方法,通过对源面部解析并对其几何形状进行正则化,可以在可接受的带宽下生成带有改善的语义一致性和表情保持的面部视频,并实现高度可控的姿态和表情生成。
Apr, 2023
一项针对基于文本的视频编辑的新型高效方法,通过自动生成适用于视频转换任务的合成配对视频数据集,用于视频图像编辑指令的转换,并采用长视频采样校正以确保一致性。该方法超越了现有的方法(如 Tune-A-Video),在基于文本的视频编辑方面取得了显著进展,并提出了更多领域探索和应用的激动人心的方向。
Nov, 2023
本文提出了一种基于姿态引导的方法来以可分离的方式合成人类视频:可信的运动预测和协调的外观生成,旨在探索并掌握视频合成中人体姿态的本质动态和诠释能力,并在保持外观连贯性的同时处理异常和嘈杂数据,实验证明其优于现有技术。
Jul, 2018
本研究提出一种新的双阶段训练方法,可利用易获得的数据集和预训练的 text-to-image(T2I)模型,生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频,同时保持了预训练 T2I 模型的编辑和概念构成能力。
Apr, 2023