MultiBooth: 面向图像中全部文本概念生成

Apr, 2024

MultiBooth: 面向图像中全部文本概念生成

MultiBooth: Towards Generating All Your Concepts in an Image from Text

Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu

TL;DR介绍了一种名为 MultiBooth 的新颖高效的图像生成技术，该技术可在文本中进行多概念定制生成；通过将多概念生成过程分为单概念学习阶段和多概念整合阶段，利用多模态图像编码和高效的概念编码技术提高了概念准确性并降低了推断成本。

Abstract

This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly

multi-concept customization image generation diffusion models concept fidelity inference cost

发现论文，激发创造

InstantBooth: 个性化文本图像生成（无测试时间微调）

提出了一种名为 InstantBooth 的方法，该方法通过学习图像概念的文本标记和适配层，无需进行测试时间微调即可实现文本引导图像个性化生成，并在语言 - 图像对齐、图像保真度和身份保护等方面获得了竞争性结果，速度快 100 倍。

Apr, 2023

AttnDreamBooth: 面向文本对齐的个性化文本与图像生成

该研究针对文本到图像个性化合成过程中的限制性问题，分析了两种主要技术（文本反转和 DreamBooth）的不足之处，并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题，通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时，采用交叉注意力图正则化项来增强对注意力图的学习，相较于基准方法，我们的方法在保护身份信息和文本对齐方面取得了显著改进。

Jun, 2024

InstructBooth: 指令跟随个性化图文生成

使用有限的图像集对文本 - 图像模型进行个性化处理，通过引入 InstructBooth 方法，使用特定对象的少量特定图像来增强图像 - 文本对齐，最终实现了优于基准线的图像 - 文本对齐效果。

Dec, 2023

VideoBooth: 基于扩散的图像引导视频生成

本文介绍了一种使用图像提示进行视频生成的方法，通过粗粒度到细粒度的图像嵌入和细粒度的注意力注入模块，实现了对指定主题的高质量视频生成。

Dec, 2023

StyleBooth: 多模态指导下的图像风格编辑

给定一张原始图片，该论文介绍了一种用于图像编辑的综合框架，使用多模态指令和高质量训练数据，提供了一种方法来生成按照指令进行编辑的图片。通过整合编码的文本指令和图像范例作为扩散模型的统一条件，该方法实现了根据多模态指令对原始图片进行编辑的功能。利用 StyleBooth 数据集，通过迭代的样式去除和编辑以及可用性过滤，提供了内容一致的不同风格类别的风格化 / 普通图片对。实验证明，高质量且多样化的训练数据显著提升了在编辑任务中保留内容和改善生成图片整体质量的能力。

Apr, 2024

MC$^2$：定制多概念生成的多概念引导

MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.

Apr, 2024

文本定位：为主题驱动的文本到图像生成分解多概念图像

利用主题驱动的文本到图像扩散模型，用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而，现有的主题驱动模型主要依赖于单一概念的输入图像，在处理多概念输入图像时面临着目标概念的指定困难。为此，我们引入了一种文本本地化的文本到图像模型（Texual Localization）来处理多概念输入图像。在微调过程中，我们的方法采用了一种新颖的交叉注意力引导方法，分解多个概念，在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明，在多概念输入图像上，我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比，我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04％，8.13％，多概念生成的 CLIP-T 得分相对提高 2.22％，5.85％。值得注意的是，我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射，这是现有模型所没有的能力。

Feb, 2024

MotionBooth: 运动感知定制文本到视频生成

我们呈现了 MotionBooth，一个创新的框架，设计用于以精确控制对象和相机运动方式来为自定义主题提供动画效果。我们利用特定对象的几张图片，有效地微调一个文本到视频模型，以准确捕捉对象的形状和特性。我们的方法采用主题区域损失和视频保护损失来提高学习效果，并利用主题令牌交叉注意损失将自定义主题与运动控制信号整合。此外，我们提出了一种在推理过程中管理主题和相机运动的无训练技术。尤其是，我们利用交叉注意力地图操作来控制主题运动，并引入了一种新颖的潜在位移模块来控制相机移动。MotionBooth 在保留主题外观的同时，能够同时控制生成视频中的运动。广泛的定量与定性评估证明了我们方法的优越性和有效性。我们的项目页面位于此 https URL。

Jun, 2024

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

PortraitBooth: 快速身份保留个性化的多用途肖像模型

PortraitBooth 是一种高效、鲁棒的个性化图像生成方法，使用人脸识别模型的主题嵌入来生成个性化图像，避免了费时的微调过程，保持了原始图像的身份，并通过情感感知的跨注意力控制实现了生成图像中多样的面部表情，支持基于文本的表情编辑。

Dec, 2023