Jul, 2024

GenArtist: 多模式 LLM 作为统一图像生成和编辑的代理

TL;DR提出了 GenArtist,这是一个通过多模态大型语言模型 (MLLM) 代理协调的统一图像生成和编辑系统,利用该代理进行工具选择和执行,将现有模型整合到工具库中,并利用 MLLM 代理将复杂问题分解成较简单的子问题,并构建树状结构以系统地规划生成、编辑和自我纠正的步骤验证,通过自动生成缺失的位置相关输入和合并位置信息,可以有效地应用适当的工具来解决每个子问题,实验表明 GenArtist 可以执行各种生成和编辑任务,并取得最先进的性能,超过了现有模型,如 SDXL 和 DALL-E 3。