ELLA：使用 LLM 增强语义对齐的扩散模型

Mar, 2024

ELLA：使用 LLM 增强语义对齐的扩散模型

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng...

TL;DR该研究提出了一种有效的大型语言模型适配器（ELLA），将文本到图像扩散模型与强大的大型语言模型相结合，以实现文本对齐，并且无需对 U-Net 或 LLM 进行训练。通过动态提取 LLM 中的时步相关条件，ELLA 在不同阶段适应语义特征，帮助扩散模型解释复杂的长文本提示。该方法在稠密提示跟随中表现出优越性，尤其是涉及多个对象组成和多样属性关系的情况。

Abstract

diffusion models have demonstrated remarkable performance in the domain of text-to-image generation. However, most widely used models still employ CLIP as their text encoder, which constrains their ability to com

diffusion models text-to-image generation efficient large language model adapter text alignment dense prompt following

发现论文，激发创造

大型语言模型在扩散模型中的提示编码作用探索

利用新提出的框架，将大型语言模型与文本到图像生成模型灵活地集成在一起，并通过消除固有的位置偏差和增强文本表示能力提高预测性能。

Jun, 2024

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

LLM4GEN：利用语义表示的 LLM 用于文本到图像生成

LLM4GEN 通过结合 LLMs 特征设计的 Cross-Adapter 模块，有效提高了复杂和密集提示的语义理解能力，为 text-to-image 生成任务带来了显著改进，并在 sample 质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

自校正的 LLM 控制扩散模型

使用 Self-correcting LLM-controlled Diffusion (SLD) 框架，该研究提出了一种迭代闭环过程，能够根据输入的提示生成图像、评估其与提示的对齐性，并纠正生成图像中的不准确性，从而提高文本到图像生成的正确性。该研究还发现，通过调整 LLM 的指令，SLD 可以执行图像编辑任务，弥合文本到图像生成与图像编辑流程之间的差距。

Nov, 2023

EMMA: 您的文本到图像扩散模型可秘密接受多模态提示

EMMA 是一个创新的图像生成模型，通过多模态特征连接器设计将文本与其他模态信息有效地整合，以实现个性化和情境感知图像和视频的生成。EMMA 模块的学习和组装使其成为一种灵活且有效的解决方案，用于高保真度和详细程度较高的多模态条件图像生成任务。

Jun, 2024

大语言模型驱动的文本到图像生成的实证研究与分析

本研究探讨使用大型语言模型作为文本编码器，在文本到图像生成中提高语言理解能力，并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型，通过轻量级适配器实现快速训练，并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量。

May, 2024

ELLA-V: 稳定的神经编码语言建模与对齐引导的序列重排

该研究提出了 ELLAA-V，一种基于语言模型的零样本文本转语音框架，可以在音素级别实现合成音频的细粒度控制，并且在准确性和稳定性方面优于现有方法。

Jan, 2024

基于 LLM 的视频扩散模型

在视频生成方面，本研究提出了一种基于文本的扩散模型，通过使用大型语言模型（LLM）生成的动态场景布局来引导视频生成过程，旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。

Sep, 2023

SUR-adapter：使用大型语言模型增强文本到图像预训练扩散模型

该研究探讨了如何改进文本生成图像的模型的问题，提出了一种称为 Semantic Understanding and Reasoning adapter (SUR-adapter) 的参数高效微调方法，以提高短文本输入的语义理解和常识推理能力，进而用提高的文本语义表征生成高质量图像。

May, 2023