EMMA：多模态大语言模型中的高效视觉对齐

Oct, 2024

EMMA：多模态大语言模型中的高效视觉对齐

EMMA: Efficient Visual Alignment in Multi-Modal LLMs

Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami

TL;DR本研究针对多模态大语言模型中视觉编码与语言模型融合不佳的问题，提出了一种轻量级的跨模态模块EMMA，实现高效的视觉与文本编码融合。研究显示，EMMA在多个任务中的性能提升可达9.3%，并显著增强了模型对幻觉现象的鲁棒性。

Abstract

Multi-Modal Large Language Models (MLLMs) have recently exhibited impressive general-purpose capabilities by leveraging vision foundation models to encode the core concepts of images into representations. These a

发现论文，激发创造

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

多模态大语言模型的位置增强视觉指令调整

通过引入区域级别的视觉编码器，本文提出了一种增强图像教学调整功能的多模态大型语言模型（MLLMs），以实现更细粒度的模态交叉对齐，并设计了多种数据生成策略构建了图像-区域-语言指令数据集，实验结果表明该模型的卓越性能。

Aug, 2023

SPHINX：多模态大型语言模型的权重、任务和视觉嵌入的联合混合

SPHINX是一个多模态、大型语言模型，通过权重混合策略、任务调整和视觉嵌入实现了强大的视觉-语言对齐能力，具备多样的功能性，包括机器指导、理解任务、图像表示和视觉推理，为未来的多模态语言模型研究提供了实质性的贡献。

Nov, 2023

SPHINX-X：一个多模态大型语言模型系列的数据和参数扩展

我们提出了SPHINX-X，这是一个建立在SPHINX基础上的广泛的多模态大型语言模型系列。通过去除冗余的视觉编码器、利用跳过标记绕过全填充子图像，以及简化多阶段训练为一阶段的所有合一范式，我们改进了SPHINX框架的架构和训练效率。为了充分发挥多模态大型语言模型的潜力，我们组装了一个包括语言、视觉和视觉-语言任务中公开可用资源的全面多领域和多模态数据集。我们进一步通过我们精心策划的OCR密集和一系列标记数据集丰富了这个收集，扩展了多样性和普适性。通过在不同的基础LLM上进行训练，包括TinyLlama1.1B、InternLM2-7B、LLaMA2-13B和Mixtral8x7B，我们获得了一系列参数大小和多语言能力各不相同的MLLM。全面的基准测试显示，多模态性能与数据和参数规模之间存在着强烈的相关性。代码和模型已在此URL发布。

Feb, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的SIMA框架在14个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024

视觉对齐中的图像识别：优先考虑视觉相似性

通过对比图像输入，对每个文本标记的预测值差异提供了强大的视觉关联指导，我们提出了对每个文本标记赋予不同贡献的方法，名为Contrastive ALignment (CAL)。我们的实验证明，CAL方法在各种基准数据集上始终改善了不同类型的VLM，并且与其他数据调整策略相比，我们的方法具有最小的额外计算开销。

May, 2024

X-VILA: 大型语言模型的跨模态对齐

X-VILA是一种全模式模型，通过结合图像、视频和音频模态来扩展大型语言模型（LLMs）的能力，实现跨模态的理解、推理和生成。在此基础上，通过一个有效的交错的任意-任意模态指令跟踪数据集以及一种视觉嵌入高速公路模块，解决了当前交叉模态对齐方法中的视觉信息丢失问题，从而在任意-任意模态对话方面表现出了比以前方法更高的效率。

May, 2024

跨模态适配器：高效的多模态大型语言模型

本研究解决了多模态大语言模型在成本效益训练和适应性方面的挑战，现有方法通常需要昂贵的语言模型重训练且适应性有限。本研究提出的CROME框架通过新颖的门控跨模态适配器有效组合视觉和文本表示，展示了在视觉问答和指令跟随基准测试上的卓越零-shot性能，并在参数效率方面与任务特定的最佳方法相竞争，揭示了预训练语言模型对构建可扩展和高效的多模态模型的潜力。

Aug, 2024

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制，采用组合注意力机制，既不增加额外模块或可学习参数，又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能，具有显著的潜在影响。

Aug, 2024