SEA：用于多模态大语言模型的标记级视觉文本集成的监督嵌入对齐

Aug, 2024

SEA：用于多模态大语言模型的标记级视觉文本集成的监督嵌入对齐

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang...

TL;DR本研究解决了多模态大语言模型中视觉和语言组件之间的显著不对齐问题，限制了模型的实用性。提出的监督嵌入对齐（SEA）方法通过对比学习，将视觉标记与大语言模型的嵌入空间对齐，从而提升了模型的性能和可解释性。实验表明，SEA在无需增加额外数据或推理计算的情况下显著改善了模型表现，尤其是对小型模型影响显著。

Abstract

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities, typically comprising a Vision Encoder, an Adapter, and a Large Language Model (LLM). The adapter

发现论文，激发创造

语言知识能够改善视觉-语言预训练中的多模态对齐吗？

研究探讨了多模态预训练神经网络模型在视觉语言相关方面的影响，设计并发布了SNARE多模态对齐基准，分析了五种先进的视觉语言模型的综合性能。

Aug, 2023

探索多模态大型语言模型的全局和局部语义表示

研究发现，模型的中间层能够更好地编码全局语义信息，表征向量在视觉-语言蕴含任务中表现更好，而最顶层的模型可能过于关注局部信息，导致对全局信息编码能力减弱。

Feb, 2024

隐式多模态对齐：关于将冻结的LLM泛化到多模态输入

大型语言模型（LLMs）对多模态任务表现出令人印象深刻的性能，然而，我们仍然缺乏对其成功的适当理解。本研究将冻结的LLMs公开显示为图像、视频、音频和文本输入，分析其内部表示以了解其在文本输入之外的泛化能力。

May, 2024

视觉对齐中的图像识别：优先考虑视觉相似性

通过对比图像输入，对每个文本标记的预测值差异提供了强大的视觉关联指导，我们提出了对每个文本标记赋予不同贡献的方法，名为Contrastive ALignment (CAL)。我们的实验证明，CAL方法在各种基准数据集上始终改善了不同类型的VLM，并且与其他数据调整策略相比，我们的方法具有最小的额外计算开销。

May, 2024

Ovis: 多模型大型语言模型的结构嵌入对齐

通过结构对齐视觉和文本嵌入，提出了一种名为 Ovis 的新的多模态大型语言模型体系结构，以捕捉图像的丰富语义，并在各种多模态基准测试中表现出优越性能，从而推动了多模态学习的更有效进展。

May, 2024

鹦鹉：多语言视觉指令调整

Parrot是一种新方法，利用文本指导在语言级别驱动视觉令牌对齐，以增强多语言大型语言模型的多模态能力，并提供了一个大规模多语言多模态基准测试数据集（MMMB）。

Jun, 2024

E5-V: 多模态大语言模型的通用嵌入

本研究介绍了一个名为E5-V的新框架，旨在通过调整多模态大型语言模型（MLLMs）来实现通用的多模态嵌入表征。我们的发现突出了相较于以往方法，MLLMs在表征多模态输入方面的显著潜力。通过与提示语一起使用MLLMs，E5-V有效地弥合了不同类型输入之间的模态差距，在多模态嵌入方面展现出强大的性能，即使在没有进行微调的情况下。我们提出了一种E5-V的单模态训练方法，即仅对文本对进行训练。该方法在图像-文本对的传统多模态训练基础上取得了显著的改进，同时将训练成本降低了约95%。此外，该方法消除了昂贵的多模态训练数据收集的需求。通过在四类任务上进行大量实验，证明了E5-V的有效性。作为一种通用多模态模型，尽管仅在单一模态上进行训练，E5-V不仅实现了，而且经常超过每项任务的最新性能水平。

Jul, 2024

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制，采用组合注意力机制，既不增加额外模块或可学习参数，又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能，具有显著的潜在影响。

Aug, 2024

多模态大语言模型的语义对齐

该研究针对多模态大语言模型（MLLMs）在图像跨模态指令处理中的语义对齐问题，提出了一种新方法——语义对齐模型（SAM）。通过在视觉标记提取过程中实现不同图像之间的双向语义指导，SAM显著提升了图像间联系信息的保留，实验结果表明其在组caption任务和故事讲述任务上均明显优于现有方法，显示出巨大的潜在影响。

Aug, 2024

多模态大语言模型中的视觉表示法则

本研究针对多模态大语言模型（MLLMs）中视觉表示的有效性提出了“视觉表示法则”，解决了跨模态对齐与视觉表示之间的关系问题。我们引入了跨模态对齐与对应性评分（AC评分），并通过实验证明该评分与模型表现呈线性关系。最重要的发现是，通过利用这种关系，我们能够仅训练最佳视觉表示，从而减少99.7%的计算成本。

Aug, 2024