MM-Diff: 多模态条件融合的高保真图像个性化

Mar, 2024

MM-Diff: 多模态条件融合的高保真图像个性化

MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration

Zhichao Wei, Qingkun Su, Long Qin, Weizhi Wang

TL;DR为了提高主题准确性，我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架，能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入，而通过设计精良的多模态交叉注意机制，CLS 嵌入一方面用于增强文本嵌入，另一方面与 patch 嵌入一起用于生成少量细节丰富的主题嵌入，并且在训练过程中引入了交叉注意图约束，确保推理过程中的灵活多主题图像采样。大量实验证明了 MM-Diff 相对于其他主要方法的优越性能。

Abstract

Recent advances in tuning-free personalized image generation based on diffusion models are impressive. However, to improve subject fidelity

personalized image generation diffusion models subject fidelity multimodal cross-attention mechanism mm-diff

发现论文，激发创造

MS-Diffusion：基于布局引导的多主体零样本图像个性化

我们的研究引入了 MS-Diffusion 框架，用于基于布局指导的零样本图像个性化处理多主题，融合了引用令牌和特征重采样以保持细节的准确性，并通过跨主题注意力来实现各自主题条件对特定区域的影响，通过全面的定量和定性实验，证明该方法在图像和文本的准确性方面优于现有模型，推动个性化的文本到图像生成的发展。

Jun, 2024

高保真人物中心的主体到图像合成

人物为中心的图像生成方法由于对常规预训练扩散进行微调导致训练不平衡，同时学习场景和人物生成会降低质量。本文提出了 Face-diffuser，一个协作生成管道，通过专门的预训练扩散模型和新颖的机制 (SNF) 消除训练不平衡并提高生成质量。

Nov, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

FastComposer：无需调参的基于局部注意力的多主体图像生成

FastComposer 使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本调节，从而实现了高效的个性化、多主题文本到图像的生成。 FastComposer 通过跨注意力本地化监督和延迟立体雕塑来处理多主题生成中的身份混合问题，并且相对于基于微调的方法获得了数百到数千倍的加速。

May, 2023

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

DiffDis：将生成式扩散模型赋能跨模态辨别能力

在这篇论文中，我们提出了 DiffDis，通过扩展扩散过程，将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识，提出了一种新颖的双流网络架构，来解决图像 - 文本辨别任务。通过基于扩散的统一训练，DiffDis 在一种体系结构中实现了更好的生成能力和跨模态语义对齐。实验结果表明，DiffDis 在图像生成和图像 - 文本辨别任务上优于单一任务模型，例如在 12 个数据集上的零样本分类的平均准确性提高了 1.65％，在零样本图像合成的 FID 上提高了 2.42 个点。

Aug, 2023

MultiDiff: 从单幅图像实现一致的新视角合成

提出了 MultiDiff 方法，它是一种用于从单个 RGB 图像一致地合成新视角的新方法，通过引入单目深度预测器和视频扩散模型作为强先验条件，实现了高质量和多视角一致的结果。

Jun, 2024

主题扩散：无需测试时间微调的开放领域个性化文本到图像生成

我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion，它不需要测试时微调，只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集，构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架，通过融合文本和图像语义，并结合粗粒度位置和细粒度参考图像控制，以最大化主体的准确性和一般化能力。此外，我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明，我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。

Jul, 2023

基于去噪扩散模型的人物图像合成

使用去噪扩散模型，我们提出了一种名为 PIDM 的人体图像扩散模型，解决了复杂的转换问题，并展示了在两个大型基准测试中的显着结果，以及如何在下游任务中使用生成的图像。

Nov, 2022