PILL: 通过 Adapter Expert 和 Attention Gate 连接到 LLM

Nov, 2023

PILL: 通过 Adapter Expert 和 Attention Gate 连接到 LLM

PILL: Plug Into LLM with Adapter Expert and Attention Gate

Fangyuan Zhang, Tingting Liang, Zhengyuan Wu, Yuyu Yin

TL;DR利用 PILL 架构，通过适配器专家和注意力门，更好地解耦混合模态下复杂任务，并利用高效调优结构，从而在模态融合方面展现出竞争性表现。

Abstract

Due to the remarkable capabilities of powerful large language models (LLMs) in effectively following instructions, there has been a growing number of assistants in the community to assist humans. Recently, significant progress has been made in the development of →

large language models vision language models mixed modalities pill architecture modality fusion

发现论文，激发创造

基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型

本文提出了一种新的插入式模块 X-adapter，用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中，以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。

May, 2023

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

LLaMA-Adapter V2: 参数高效的视觉指令模型

本文介绍 LlaMA-Adapter V2，是一种解锁更多可学习参数并引入早期融合策略、共同训练数据的参数高效视觉指令模型，可用于多模态推理，对于开放式的视觉指令，具有更强的泛化能力。

Apr, 2023

模态即插即用：多模态低水平语言模型中的弹性模态适应

通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练，mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应，同时在存在方案的情况下保持相当的准确性。

Dec, 2023

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型

本文提出了一种新的建模框架，将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程，其中，投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中，适配器调谐视觉 - 语言模型需要处理异种图，为此，我们提出了一种新的适配器架构 $p$-adapter，在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验，包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。

Dec, 2023

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

May, 2022

意识到提示的适配器：为多模态大型语言模型学习自适应的视觉特征

为了弥补视觉和语言模态之间的差距，我们提出了 prompt-aware 适配器，这些适配器根据提示的特定焦点动态嵌入视觉输入，以从提示中捕捉到最相关的视觉线索，从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aware 适配器在各种视觉问答任务（如计数和位置推理）中的有效性。

May, 2024