利用合成数据集的视频到视频转换
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法,可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频,此方法成功优化了视频生成技术的最新发展状态,并被应用于未来视频预测。
Aug, 2018
本研究提出了一种高效有效的方法,通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换,同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息,通过联合噪声优化有效地最小化了时空不一致性,实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性,并且我们的方法不需要对扩散模型进行任何培训或微调。 最后,我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。
May, 2023
本研究提出了一种少样本 vid2vid 前景图像生成模型,利用注意力机制生成网络权重,从而实现对以前未见过的目标进行视频生成。在多个大规模视频数据集上的实验证实了该方法的有效性。
Oct, 2019
本文研究了无配对视频到视频翻译的问题,提出了一种新的框架,包括经过精心设计的生成器和鉴别器,以及两个核心目标函数:内容保持损失和时间一致性损失。经过广泛的定性和定量评估,证明了该方法相对于先前的方法具有更优越的性能。
Aug, 2019
借鉴一致性模型 (CM) 的自洽性特性,我们提出了一种高效的零样本视频编辑方法 FastVideoEdit,能够减少编辑时间并提高编辑速度,同时保持可比较的生成质量。
Mar, 2024
在没有手工标注的配对数据的情况下,提出了一种使用未经整理和未配对数据进行文本 - 视频检索的新设置,该方法通过学习文本查询的样式并将其传输到未经整理的网络视频来解决这个问题。通过引入多样式对比训练程序,提高了模型在多个数据集上的泛化能力,并在零样本文本 - 视频检索方面改进了最先进的性能。
Sep, 2023
本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法,同时提出了一种新的视帧差异损失函数,可以在训练过程中提高生成视频的时序一致性,实验表明该方法生成的视频质量高、时序连贯,能够进行多种视频编辑操作。
May, 2023
提出了 I2VGen-XL 的级联方法,通过将两个因素解耦并利用静态图像作为关键指导,能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。
Nov, 2023