DisenStudio：定制化多主题文本到视频生成与解耦空间控制

May, 2024

DisenStudio：定制化多主题文本到视频生成与解耦空间控制

DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control

Hong Chen, Xin Wang, Yipeng Zhang, Yuwei Zhou, Zeyang Zhang...

TL;DR本文提出了一种名为 DisenStudio 的新框架，通过增强预训练的基于扩散的文本到视频模型，使用空间分离的交叉注意机制将每个主题与期望的动作相关联，并使用三种微调策略来定制多个主题。通过广泛的实验证明，DisenStudio 在各种指标上明显优于现有方法，并且可以作为各种可控生成应用的强大工具。

Abstract

Generating customized content in videos has received increasing attention recently. However, existing works primarily focus on customized text-to-video generation for single subject, suffering from subject-missing and attribute-binding problems when the video is expected to contain mul

customized content text-to-video generation multiple subjects disenstudio controllable generation applications

发现论文，激发创造

VideoDreamer: 自定义多主题文本到视频生成与解藕混合微调

一个名为 VideoDreamer 的框架填补了现有工作在生成单一主题视频上的不足，它通过利用预训练稳定扩散，潜变量运动动力学和时间交叉帧注意力来生成多主题的文本引导视频。该项目还引入了一个用于评估定制多主题文本到视频生成模型的基准测试集 MultiStudioBench。

Nov, 2023

CustomVideo: 多主题文本生成定制视频

在本工作中，我们提出了一种名为 CustomVideo 的新型框架，该框架可以生成多个主题引导下的保持身份特征的视频。我们通过将多个主题组合于单个图像中来促进多主题同时出现；在基本的文本到视频扩散模型上，我们设计了一种简单而有效的注意力控制策略，以在扩散模型的潜在空间中解开不同的主题；此外，为了帮助模型专注于特定的对象区域，我们从给定的参考图像中分割对象，并为注意力学习提供相应的对象蒙版。我们还收集了一个多主题文本到视频生成数据集作为全面的基准，其中包含 69 个个体主题和 57 个有意义的主题对。广泛的定性、定量和用户研究结果证明了我们方法的优越性，与之前的最先进方法相比。

Jan, 2024

DisenBooth: 面向主题驱动的文本图像生成的解缕参数高效调整

提出 DisenBooth 框架，针对以往映射存在的问题，在加噪处理中对嵌入部分进行解缔。实验表明，DisenBooth 在以往的基础上，能够更好地学习与主题相关和不相关的嵌入，并且具有更强的主题驱动图像生成能力。

May, 2023

AutoStudio: 多回合互动图像生成中一致主题的构建

AutoStudio 是一个训练免费的多代理框架，通过使用大型语言模型生成高质量图像，并且能够与用户进行多次交互来生成一系列多主题图像。

Jun, 2024

Cones 2: 多主体定制图像合成

研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题，并提出了一种方案，该方案利用文本嵌入和布局来生成图像，并通过实验证明了其在多个主题的自定义方面具有优越性。

May, 2023

DreamVideo: 定制主题与动作，创作您梦想的视频

通过使用扩散模型进行定制生成，在图像生成方面取得了可观的进展，但在具有挑战性的视频生成任务中仍然不令人满意，因为它需要对主题和动作的可控性。为此，我们提出了 DreamVideo，一种新颖的方法，可以从几个所需主题的静态图像和几个目标运动的视频来生成个性化视频。

Dec, 2023

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

AttenCraft: 文本图像定制中基于注意力引导的多概念解耦

使用 AttenCraft 方法，我们提出了一种基于注意力引导的多概念解缠方法，它使用了自注意力和交叉注意力图来生成精确的概念掩模，并在训练过程中应用于每个目标概念的交叉注意力激活，从而在图像对齐方面优于基线模型，并在文本对齐方面表现相当。

May, 2024

MS-Diffusion：基于布局引导的多主体零样本图像个性化

我们的研究引入了 MS-Diffusion 框架，用于基于布局指导的零样本图像个性化处理多主题，融合了引用令牌和特征重采样以保持细节的准确性，并通过跨主题注意力来实现各自主题条件对特定区域的影响，通过全面的定量和定性实验，证明该方法在图像和文本的准确性方面优于现有模型，推动个性化的文本到图像生成的发展。

Jun, 2024

利用大型语言模型增强面向动态感知的文本到视频扩散

通过设计一个创新的动态场景管理器 (Dysen) 模块，该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换，从而丰富了视频的场景细节，并与主干的 T2V DM 相结合来实现高质量的文本到视频生成。

Aug, 2023