Apr, 2024

MoMA: 快速个性化图像生成的多模式 LLM 适配器

TL;DR本篇论文介绍了 MoMA:一种基于开放词汇、无需训练的个性化图像模型,具备灵活的零样本能力。利用开源的多模态大型语言模型(MLLM),我们训练 MoMA 同时担任特征提取器和生成器的双重角色。该模型通过引入一种新颖的自注意力快捷方法,高效地将图像特征传递给图像扩散模型,从而提高生成图像中目标对象的相似度。作为一个调优自由、即插即用的模块,与其他方法相比,我们的模型只需一个参考图像即可生成具有高细节保真度、增强身份保留性和忠实响应的图像。我们的工作是开放源代码的,从而为所有人提供这些先进技术的通用访问。