Aug, 2024

Lumina-mGPT:通过多模态生成预训练实现灵活的照片级真实感文本到图像生成

TL;DR本研究聚焦于改进现有的文本到图像生成技术,提出Lumina-mGPT模型,利用多模态生成预训练(mGPT)进行灵活的照片级真实感图像生成。我们的主要发现表明,使用简单的解码器变换器与高质量图像-文本对联合微调,可以在各个分辨率下实现高审美图像合成,并保持广泛的多模态能力。