Mar, 2024
ELLA:使用 LLM 增强语义对齐的扩散模型
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment
Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng...
TL;DR该研究提出了一种有效的大型语言模型适配器(ELLA),将文本到图像扩散模型与强大的大型语言模型相结合,以实现文本对齐,并且无需对 U-Net 或 LLM 进行训练。通过动态提取 LLM 中的时步相关条件,ELLA 在不同阶段适应语义特征,帮助扩散模型解释复杂的长文本提示。该方法在稠密提示跟随中表现出优越性,尤其是涉及多个对象组成和多样属性关系的情况。