Jan, 2024

掌握文本到图像扩散:多模态LLM的重新字幕、规划和生成

TL;DR提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG,该框架利用多模态LLMs的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。