模态即插即用：多模态低水平语言模型中的弹性模态适应

Dec, 2023

模态即插即用：多模态低水平语言模型中的弹性模态适应

Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

Kai Huang, Boyuan Yang, Wei Gao

TL;DR通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练，mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应，同时在存在方案的情况下保持相当的准确性。

Abstract

large language models (LLMs) are capable of reasoning over diverse input data modalities through pre-trained encoders. However, the growing diversity of input data modalities prevents incorporating all modalities into LLMs, especially when LLMs are deployed on resource-constrained edge

large language models runtime modality adaptation mpnp-llm flops reduction task accuracy

发现论文，激发创造

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024

OneLLM：一种将所有模态与语言对齐的框架

通过统一的多模态编码器和渐进式多模态对齐管道，OneLLM 将八种模态与语言对齐，以充分发挥其在指令跟随中的潜力；在全面的多模态指令数据集上进行评估，并在多模态字幕生成、问答和推理等任务中展现出优异性能。

Dec, 2023

多模态大语言模型的模型组合

在该篇论文中，研究人员介绍了一种新的范例通过现有 MLLMs 的模型组合来创建一个新模型，该模型保留了每个原始模型的模态理解能力。通过实验证明，模型组合可以创建一个多功能模型，能够处理来自多种模态的输入数据。

Feb, 2024

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

PILL: 通过 Adapter Expert 和 Attention Gate 连接到 LLM

利用 PILL 架构，通过适配器专家和注意力门，更好地解耦混合模态下复杂任务，并利用高效调优结构，从而在模态融合方面展现出竞争性表现。

Nov, 2023

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

插上并祈祷：利用多模态模型的现成组件

多模型系统中对抗嵌入空间攻击，特别是使用预训练编码器，可能导致上下文污染和隐藏提示注入，对系统的行为产生重大影响，因此在插拔式系统中应对其进行全面检查以确保安全性。

Jul, 2023

如何弥合模态之间的差距：对多模态大语言模型的全面调查

本综述论文探讨了多模态大型语言模型（MLLMs），该模型整合了类似于 GPT-4 的大型语言模型（LLMs），用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力，缩小了人与计算机之间的差距，并暗示了通向人工智能的潜在途径。然而，MLLMs 仍面临处理多模态语义差距的挑战，可能导致错误生成，对社会造成潜在风险。选择适当的模态对齐方法至关重要，因为不恰当的方法可能需要更多参数，并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法，分为四个组：（1）多模态转换器将数据转换为 LLMs 可以理解的格式；（2）多模态感知器改善 LLMs 对不同类型数据的感知能力；（3）工具辅助将数据转换为一种常见格式，通常是文本；以及（4）数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段，我们将组织和更新各种现有的多模态信息对齐研究方法。

Nov, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023