MoMA: 快速个性化图像生成的多模式 LLM 适配器

Apr, 2024

MoMA: 快速个性化图像生成的多模式 LLM 适配器

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal...

TL;DR本篇论文介绍了 MoMA：一种基于开放词汇、无需训练的个性化图像模型，具备灵活的零样本能力。利用开源的多模态大型语言模型（MLLM），我们训练 MoMA 同时担任特征提取器和生成器的双重角色。该模型通过引入一种新颖的自注意力快捷方法，高效地将图像特征传递给图像扩散模型，从而提高生成图像中目标对象的相似度。作为一个调优自由、即插即用的模块，与其他方法相比，我们的模型只需一个参考图像即可生成具有高细节保真度、增强身份保留性和忠实响应的图像。我们的工作是开放源代码的，从而为所有人提供这些先进技术的通用访问。

Abstract

In this paper, we present moma: an open-vocabulary, training-free personalized image model that boasts flexible zero-shot capabilities. As foundational text-to-image models rapidly evolve, the demand for robust <

moma image model personalized image generation image-to-image translation reference image

发现论文，激发创造

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

MoA: 个性化图像生成中的主题 - 上下文分离的注意力混合

我们提出了一种新的用于个性化文本到图像扩散模型的架构，称为混合关注机制（MoA）。MoA 通过将生成工作负载分配给个性化分支和非个性化先验分支两个注意力路径来分布生成负载。

Apr, 2024

MuLan: 多模态 - LLM 进化多对象扩散智能体

通过渐进式多对象生成、规划和反馈控制，我们开发了一种无需训练的多模态语言模型代理（MuLan），以解决现有文本到图像模型在处理多对象、对象空间位置、相对大小、重叠和属性绑定方面的困难。

Feb, 2024

LLMGA: 基于多模态大型语言模型的生成助手

该研究介绍了一种基于多模态大型语言模型的生成助手（LLMGA），利用大型语言模型（LLM）中内在的知识和理解能力，帮助用户进行图像生成和编辑，通过精确控制生成提示实现对稳定扩散（SD）的控制，以提供更精细、准确的内容和更直观的网络解释性，同时还提出了一个两阶段的训练方案来优化 SD 的生成结果，并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明，LLMGA 具有很好的生成能力，并能以交互方式在更广泛的应用中发挥作用。

Nov, 2023

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

通过使用多模态大型语言模型，本文提出了一种用于人物图像重新识别的文本到图像转换方法，通过生成各种模板的描述来构建大规模数据集，同时使用相似性判断方法处理不准确的描述，从而显著提升直接转换的文本到图像人物重新识别性能。

May, 2024

利用插件记忆混合增强零样本密集检索器

本文提出了一种通过从多个信息语料库（“外部记忆”）检索增强文档的机制，即 Mixture-Of-Memory Augmentation（MoMA），来改善语言模型的零样本泛化能力，并以一种零样本密集检索环境为例，使用 MoMA 增强强 T5-based retriever 模型。MoMA 在标准 BEIR 基准测试中获得了强的零样本检索准确性，优于寻求从增加模型参数和计算步骤进行泛化的系统，并证明了 Mixture-Of-Memory 的必要性及其学习的好处，同时展示了 MoMA 如何利用插入式存储器在推理时不改变其参数。

Feb, 2023

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024

神秘投影：多模态 LLMs 获得领域特定的视觉能力，无需更丰富的跨模态投影

通过实验证明，对多模态大型语言模型进行微调时，虽然确实获得了特定领域的视觉能力，但更新不会导致提取相关的特定领域视觉属性。结果表明，即使只对投影进行微调，领域特定的视觉属性仍由语言模型来建模。通过这项研究，我们提供了对多模态大型语言模型架构中交叉模态投影作用的潜在重新解释。

Feb, 2024