VideoDreamer: 自定义多主题文本到视频生成与解藕混合微调

Nov, 2023

VideoDreamer: 自定义多主题文本到视频生成与解藕混合微调

VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning

Hong Chen, Xin Wang, Guanning Zeng, Yipeng Zhang, Yuwei Zhou...

TL;DR一个名为 VideoDreamer 的框架填补了现有工作在生成单一主题视频上的不足，它通过利用预训练稳定扩散，潜变量运动动力学和时间交叉帧注意力来生成多主题的文本引导视频。该项目还引入了一个用于评估定制多主题文本到视频生成模型的基准测试集 MultiStudioBench。

Abstract

customized text-to-video generation aims to generate text-guided videos with customized user-given subjects, which has gained increasing attention recently. However, existing works are primarily limited to generating videos for a single subject, leaving the more challenging problem of

customized text-to-video generation multi-subject videodreamer framework temporally consistent attribute binding problem

发现论文，激发创造

DisenStudio：定制化多主题文本到视频生成与解耦空间控制

本文提出了一种名为 DisenStudio 的新框架，通过增强预训练的基于扩散的文本到视频模型，使用空间分离的交叉注意机制将每个主题与期望的动作相关联，并使用三种微调策略来定制多个主题。通过广泛的实验证明，DisenStudio 在各种指标上明显优于现有方法，并且可以作为各种可控生成应用的强大工具。

May, 2024

CustomVideo: 多主题文本生成定制视频

在本工作中，我们提出了一种名为 CustomVideo 的新型框架，该框架可以生成多个主题引导下的保持身份特征的视频。我们通过将多个主题组合于单个图像中来促进多主题同时出现；在基本的文本到视频扩散模型上，我们设计了一种简单而有效的注意力控制策略，以在扩散模型的潜在空间中解开不同的主题；此外，为了帮助模型专注于特定的对象区域，我们从给定的参考图像中分割对象，并为注意力学习提供相应的对象蒙版。我们还收集了一个多主题文本到视频生成数据集作为全面的基准，其中包含 69 个个体主题和 57 个有意义的主题对。广泛的定性、定量和用户研究结果证明了我们方法的优越性，与之前的最先进方法相比。

Jan, 2024

DreamVideo: 定制主题与动作，创作您梦想的视频

通过使用扩散模型进行定制生成，在图像生成方面取得了可观的进展，但在具有挑战性的视频生成任务中仍然不令人满意，因为它需要对主题和动作的可控性。为此，我们提出了 DreamVideo，一种新颖的方法，可以从几个所需主题的静态图像和几个目标运动的视频来生成个性化视频。

Dec, 2023

DreamTuner：主题驱动生成仅需一张图片

DreamTurner 是一种新方法，通过将粗略主题特征逐渐注入到细节中，有效地实现主题驱动的图像生成，其中引入了主题编码器以保留粗略主题特征并使用自主题注意力层来提炼目标主题的细节特征。

Dec, 2023

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

MotionDirector: 文本到视频扩散模型的动作定制

通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数，作者提出了 MotionDirector 的方法，可以生成具有不同外观的自定义运动的视频，并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。

Oct, 2023

DreamEdit：主题驱动的图像编辑

本文介绍了两个新的主题驱动任务，即主题替换和主题添加。作者提供了一个新的数据集 DreamEditBench 并创建了自己的 DreamEditor 方法，使用人工和自动评估来评估它们与基线模型的表现，以便使未来的主题驱动图像编辑具有更强的可控性。

Jun, 2023

自回归生成的多概念视频定制的文本引导

我们提出了一种多概念定制预训练文本到视频模型的方法，通过自动回归的方式生成多个定制概念的视频，并使用 videoCLIP、DINO 分数以及人工评估进行定量评估。

May, 2024