Nov, 2023

LLMGA: 基于多模态大型语言模型的生成助手

TL;DR该研究介绍了一种基于多模态大型语言模型的生成助手(LLMGA),利用大型语言模型(LLM)中内在的知识和理解能力,帮助用户进行图像生成和编辑,通过精确控制生成提示实现对稳定扩散(SD)的控制,以提供更精细、准确的内容和更直观的网络解释性,同时还提出了一个两阶段的训练方案来优化SD的生成结果,并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明,LLMGA具有很好的生成能力,并能以交互方式在更广泛的应用中发挥作用。