Jun, 2024

MUMU:从文本到图像数据引导多模态图像生成

TL;DR我们训练了一个模型,从混合了文本和图片的多模态提示中生成图片,例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中提取对应于单词的语义上有意义的图像裁剪,引导一个多模态数据集。我们的模型 MUMU 由一个具有扩散解码器的视觉 - 语言模型编码器组成,并在单个 8xH100 GPU 节点上进行训练。尽管只是训练在来自同一图片的裁剪上,MUMU 学会将来自不同图片的输入组合成一致的输出。例如,一个真实人物和一个卡通的输入会以卡通风格输出相同的人物,一个站立的主题和一个滑板车的输入会输出主题骑着滑板车。因此,我们的模型在风格转换和角色一致性等任务上具有泛化能力。我们的结果显示了将多模态模型作为图像生成的通用控制器的潜力。