Jan, 2024

分而治之:语言模型可用于规划和自我纠正组合式文本到图像生成

TL;DR我们提出了 CompAgent,这是一种无需训练的组合文本到图像生成方法,核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性,尤其是在保留对象属性和关系方面,通过先将文本提示分解成独立的对象、属性和场景布局,并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。