May, 2023

利用多模态语言模型生成图像

TL;DR该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。