MUMU：从文本到图像数据引导多模态图像生成

Jun, 2024

MUMU：从文本到图像数据引导多模态图像生成

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

William Berman, Alexander Peysakhovich

TL;DR我们训练了一个模型，从混合了文本和图片的多模态提示中生成图片，例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中提取对应于单词的语义上有意义的图像裁剪，引导一个多模态数据集。我们的模型 MUMU 由一个具有扩散解码器的视觉 - 语言模型编码器组成，并在单个 8xH100 GPU 节点上进行训练。尽管只是训练在来自同一图片的裁剪上，MUMU 学会将来自不同图片的输入组合成一致的输出。例如，一个真实人物和一个卡通的输入会以卡通风格输出相同的人物，一个站立的主题和一个滑板车的输入会输出主题骑着滑板车。因此，我们的模型在风格转换和角色一致性等任务上具有泛化能力。我们的结果显示了将多模态模型作为图像生成的通用控制器的潜力。

Abstract

We train a model to generate images from multimodal prompts of interleaved text and images such as "a

multimodal prompts image generation vision-language model style transfer character consistency

发现论文，激发创造

多模态生成预训练

本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型，它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练，将任何单模态或多模态数据输入混合 (例如，交错的图像、文本和视频)，并表现得十分出色。

Jul, 2023

UNIMO-G：基于多模态条件扩散的统一图像生成

UNIMO-G 是一个简单的多模态条件扩散框架，能够对多模态提示进行操作，并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本 - 图像对，以及使用多模态提示进行指导微调，实现了高保真度的图像生成。

Jan, 2024

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

多模态无监督图像到图像的翻译

本研究提出了一种多模态无监督图像到图像的翻译框架 (MUNIT)，该框架可以将图像表示分解为内容代码和风格代码，从而能够生成来自给定源域图像的多样性输出，并能够通过提供示例样式图像来控制翻译输出的风格。该框架在对比最先进的方法的基础上，通过大量实验证明了其优势。

Apr, 2018

多模式提示下的用户友好定制生成

本文提出了一种方法，用户只需提供每个定制主题的图像和文本，而不需要提供多张图像，通过引入 “多模态提示” 概念，将文本和图像相结合，简化用户交互，实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。

May, 2024

MoMA: 快速个性化图像生成的多模式 LLM 适配器

本篇论文介绍了 MoMA：一种基于开放词汇、无需训练的个性化图像模型，具备灵活的零样本能力。利用开源的多模态大型语言模型（MLLM），我们训练 MoMA 同时担任特征提取器和生成器的双重角色。该模型通过引入一种新颖的自注意力快捷方法，高效地将图像特征传递给图像扩散模型，从而提高生成图像中目标对象的相似度。作为一个调优自由、即插即用的模块，与其他方法相比，我们的模型只需一个参考图像即可生成具有高细节保真度、增强身份保留性和忠实响应的图像。我们的工作是开放源代码的，从而为所有人提供这些先进技术的通用访问。

Apr, 2024

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021