Mar, 2024

ELLA:使用 LLM 增强语义对齐的扩散模型

TL;DR该研究提出了一种有效的大型语言模型适配器(ELLA),将文本到图像扩散模型与强大的大型语言模型相结合,以实现文本对齐,并且无需对 U-Net 或 LLM 进行训练。通过动态提取 LLM 中的时步相关条件,ELLA 在不同阶段适应语义特征,帮助扩散模型解释复杂的长文本提示。该方法在稠密提示跟随中表现出优越性,尤其是涉及多个对象组成和多样属性关系的情况。