Jan, 2024

掌握文本到图像扩散:多模态 LLM 的重新字幕、规划和生成

TL;DR提出一种全新的基于训练自由的文本到图像生成 / 编辑框架 RPG,该框架利用多模态 LLMs 的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本 - 图像语义对齐方面优于 DALL-E 3 和 SDXL 等最先进的文本到图像扩散模型。