利用合成数据集的视频到视频转换

Nov, 2023

利用合成数据集的视频到视频转换

Consistent Video-to-Video Transfer Using Synthetic Dataset

Jiaxin Cheng, Tianjun Xiao, Tong He

TL;DR一项针对基于文本的视频编辑的新型高效方法，通过自动生成适用于视频转换任务的合成配对视频数据集，用于视频图像编辑指令的转换，并采用长视频采样校正以确保一致性。该方法超越了现有的方法（如 Tune-A-Video），在基于文本的视频编辑方面取得了显著进展，并提出了更多领域探索和应用的激动人心的方向。

Abstract

We introduce a novel and efficient approach for text-based video-to-video editing that eliminates the need for resource-intensive per-video-per-model finetuning. At the core of our approach is a synthetic paired video dataset tailored for video-to-video transfer tasks. Inspired by

text-based video-to-video editing synthetic paired video dataset instruct pix2pix prompt-to-prompt long video sampling correction

发现论文，激发创造

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

视频到视频合成

本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法，可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频，此方法成功优化了视频生成技术的最新发展状态，并被应用于未来视频预测。

Aug, 2018

Video ControlNet：条件图像扩散模型实现时域一致的虚拟到真实视频翻译

本研究提出了一种高效有效的方法，通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换，同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息，通过联合噪声优化有效地最小化了时空不一致性，实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性，并且我们的方法不需要对扩散模型进行任何培训或微调。最后，我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。

May, 2023

少样本视频到视频合成

本研究提出了一种少样本 vid2vid 前景图像生成模型，利用注意力机制生成网络权重，从而实现对以前未见过的目标进行视频生成。在多个大规模视频数据集上的实验证实了该方法的有效性。

Oct, 2019

搜索先验使文本到视频的合成更好

本文使用搜索为基础的生成流程，将传统的文本到视频生成过程重构，并利用先前的视频作为动作先验数据库，以此增强生成视频动作的真实感。

Jun, 2024

无配对视频到视频翻译的语义和时间一致性保持

本文研究了无配对视频到视频翻译的问题，提出了一种新的框架，包括经过精心设计的生成器和鉴别器，以及两个核心目标函数：内容保持损失和时间一致性损失。经过广泛的定性和定量评估，证明了该方法相对于先前的方法具有更优越的性能。

Aug, 2019

FastVideoEdit：利用一致性模型进行高效的文本到视频编辑

借鉴一致性模型 (CM) 的自洽性特性，我们提出了一种高效的零样本视频编辑方法 FastVideoEdit，能够减少编辑时间并提高编辑速度，同时保持可比较的生成质量。

Mar, 2024

In-Style: 文本与未编辑视频之间的风格迁移用于文本 - 视频检索

在没有手工标注的配对数据的情况下，提出了一种使用未经整理和未配对数据进行文本 - 视频检索的新设置，该方法通过学习文本查询的样式并将其传输到未经整理的网络视频来解决这个问题。通过引入多样式对比训练程序，提高了模型在多个数据集上的泛化能力，并在零样本文本 - 视频检索方面改进了最先进的性能。

Sep, 2023

InstructVid2Vid：自然语言控制视频编辑

本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法，同时提出了一种新的视帧差异损失函数，可以在训练过程中提高生成视频的时序一致性，实验表明该方法生成的视频质量高、时序连贯，能够进行多种视频编辑操作。

May, 2023

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成

提出了 I2VGen-XL 的级联方法，通过将两个因素解耦并利用静态图像作为关键指导，能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。

Nov, 2023