VideoBooth: 基于扩散的图像引导视频生成

Dec, 2023

VideoBooth: 基于扩散的图像引导视频生成

VideoBooth: Diffusion-based Video Generation with Image Prompts

Yuming Jiang, Tianxing Wu, Shuai Yang, Chenyang Si, Dahua Lin...

TL;DR本文介绍了一种使用图像提示进行视频生成的方法，通过粗粒度到细粒度的图像嵌入和细粒度的注意力注入模块，实现了对指定主题的高质量视频生成。

Abstract

Text-driven video generation witnesses rapid progress. However, merely using text prompts is not enough to depict the desired subject appearance that accurately aligns with users' intents, especially for customized content creation. In this paper, we study the task of →

video generation image prompts content control coarse-to-fine embedding attention injection module

发现论文，激发创造

InstructBooth: 指令跟随个性化图文生成

使用有限的图像集对文本 - 图像模型进行个性化处理，通过引入 InstructBooth 方法，使用特定对象的少量特定图像来增强图像 - 文本对齐，最终实现了优于基准线的图像 - 文本对齐效果。

Dec, 2023

AttnDreamBooth: 面向文本对齐的个性化文本与图像生成

该研究针对文本到图像个性化合成过程中的限制性问题，分析了两种主要技术（文本反转和 DreamBooth）的不足之处，并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题，通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时，采用交叉注意力图正则化项来增强对注意力图的学习，相较于基准方法，我们的方法在保护身份信息和文本对齐方面取得了显著改进。

Jun, 2024

InstantBooth: 个性化文本图像生成（无测试时间微调）

提出了一种名为 InstantBooth 的方法，该方法通过学习图像概念的文本标记和适配层，无需进行测试时间微调即可实现文本引导图像个性化生成，并在语言 - 图像对齐、图像保真度和身份保护等方面获得了竞争性结果，速度快 100 倍。

Apr, 2023

利用字幕和注入技术实现最小文本输入的用户友好型图像编辑

本文提出了两种基于提示生成框架的简单而有效的方法，以改善基于文本的图像编辑过程中用户工程的问题，并通过定性和定量实验证明了提示在基于文本的图像编辑中的重要性以及我们的方法可以与基于参考的提示相媲美。

Jun, 2023

神经引导：优化文本到图像生成的自适应框架

通过使用预先训练的语言模型生成与人类专家设计相似的提示语，NeuroPrompts 自适应框架可以改善文本到图像模型生成结果的质量，并提供用户对风格特征的控制。研究通过创建一个与 Stable Diffusion 相关的互动应用程序，展示了该框架的实用性。此外，通过利用大型数据集的人工设计提示，在文本到图像生成过程中，自动产生的改进提示可获得更高质量的图像。

Nov, 2023

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

批量指导梯度用于提示演化：增强文本到图像综合的系统性提示优化

通过多代理框架和迭代过程，基于高质量的初始查询和动态指令优化的图文生成模型，提供了改进用户输入提示设计的机制。

Jun, 2024

通过遮罩扩散实现的互动视频生成

最近，在文本到视频生成方面取得了很大的进展，目前的模型能够生成高质量、逼真的视频。然而，这些模型缺乏用户交互控制和生成视频的能力，这可能开启新的应用领域。本论文提出了一种通过扩展性 - 自适应控制来加强扩散型视频生成模型的输出的方法。该模块是一种训练免费、没有推理开销的自定义部件，可以与现有的视频生成模型相结合，实现时空控制。我们还提出了一个用于交互式视频生成任务的评估基准。通过广泛的定性和定量评估，我们证明了 Peekaboo 可以实现视频生成控制，并且在 mIoU 方面超过基准模型的增益高达 3.8 倍。

Dec, 2023

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023