基于世界一致性的视频到视频合成
本研究提出了一种少样本 vid2vid 前景图像生成模型,利用注意力机制生成网络权重,从而实现对以前未见过的目标进行视频生成。在多个大规模视频数据集上的实验证实了该方法的有效性。
Oct, 2019
本文提出了一种名为 Fast-Vid2Vid 的新型空间时间压缩框架,旨在减少计算资源并加速推理,通过对生成模型的数据方面进行压缩处理,使模型实现低分辨率数据流合成 / 高效中间帧插值,并在标准基准测试中实现约 20 FPS 的实时性能,同时在单个 V100 GPU 上节约约 8 倍的计算成本。
Jul, 2022
本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法,可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频,此方法成功优化了视频生成技术的最新发展状态,并被应用于未来视频预测。
Aug, 2018
使用扩散方法提升图像到视频的视觉一致性,通过引入空时注意力和从低频带噪声初始化的方式,生成高度一致的视频。同时,根据提出的方法进行了自动生成长视频和相机运动控制方面的拓展,并通过 I2V-Bench 进行了评估,结果表明 ConsistI2V 方法的优越性。
Feb, 2024
这篇论文提出了一种一致的视频到视频合成框架,通过同时利用源视频中的空间条件和时间光流线索,处理流程中的不完美估计并实现了与现有 I2I 模型的无缝集成、高效和高质量视频合成。
Dec, 2023
该研究讨论了计算机视觉中的一个前沿课题,3D 视频生成,以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型,研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示,来实现高质量的动态 3D 场景生成,从而不再需要显式建模多视角一致性或三维时间动态,为此任务提供更简单的生成算法。
Jun, 2024
一项针对基于文本的视频编辑的新型高效方法,通过自动生成适用于视频转换任务的合成配对视频数据集,用于视频图像编辑指令的转换,并采用长视频采样校正以确保一致性。该方法超越了现有的方法(如 Tune-A-Video),在基于文本的视频编辑方面取得了显著进展,并提出了更多领域探索和应用的激动人心的方向。
Nov, 2023
我们提出了一种高保真度的图像到视频生成方法,通过在预先训练的视频扩散模型上设计一个帧保留分支,名为 DreamVideo,来解决现有方法的局限性,该方法通过卷积层感知参考图像,并将特征与噪声潜在变量连接起来作为模型输入。同时,通过结合无分类器指导的双条件,可以通过提供不同的提示文本将单个图像导向不同动作的视频,使得视频的生成具备精确控制能力。综合实验表明,我们的方法在公开数据集上表现出色,无论是定量还是定性结果都优于现有方法,并且在 UCF101 数据集上相对于其他图像到视频模型具有较强的图像保留能力和高 FVD 得分。更多详细信息和全面结果将在文中进行详细阐述。
Dec, 2023
本文利用深度递归神经网络,结合短期、长期以及感知上的损失,为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入,生成时间上连贯的视频的方法,实现了对多种需求的处理,且无需光流计算,具有实时性能。
Aug, 2018
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024