May, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

TL;DR该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。