EMMA: 您的文本到图像扩散模型可秘密接受多模态提示

Jun, 2024

EMMA: 您的文本到图像扩散模型可秘密接受多模态提示

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng...

TL;DREMMA 是一个创新的图像生成模型，通过多模态特征连接器设计将文本与其他模态信息有效地整合，以实现个性化和情境感知图像和视频的生成。EMMA 模块的学习和组装使其成为一种灵活且有效的解决方案，用于高保真度和详细程度较高的多模态条件图像生成任务。

Abstract

Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically

image generation multi-modal conditions emma text-to-image multi-modal prompts

发现论文，激发创造

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

利用扩散模型和元提示进行视觉感知

通过引入可学习的嵌入（元提示）来利用扩散模型解决视觉感知任务，我们的方法在深度估计和语义分割任务上取得了新的性能记录，并在 ADE20K 的语义分割和 COCO 数据集的姿态估计等方面达到了与最先进方法相媲美的结果，展示了其稳健性和多功能性。

Dec, 2023

MaskDiffusion：使用条件掩蔽提升文本与图像的一致性

优化了扩散模型中文本和图像的一致性，通过引入自适应掩码调整文本令牌对图像特征的贡献，提高了合成图像的质量。

Sep, 2023

基于视觉概念驱动的文字到图像扩散模型的图像生成

我们提出了一个概念驱动的文本到图像（TTI）个性化框架，通过学习用户提供的图像示例中的概念，以及一种交替优化过程，进一步改进了现有的 TTI 模型，使其能够生成具有多个交互概念的图像。

Feb, 2024

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Apr, 2024

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器 (SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的 T2I 模型相媲美。

May, 2023

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

ELLA：使用 LLM 增强语义对齐的扩散模型

该研究提出了一种有效的大型语言模型适配器（ELLA），将文本到图像扩散模型与强大的大型语言模型相结合，以实现文本对齐，并且无需对 U-Net 或 LLM 进行训练。通过动态提取 LLM 中的时步相关条件，ELLA 在不同阶段适应语义特征，帮助扩散模型解释复杂的长文本提示。该方法在稠密提示跟随中表现出优越性，尤其是涉及多个对象组成和多样属性关系的情况。

Mar, 2024

DreamDistribution: 基于提示分布学习的文本 - 图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到 3D 的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023