多模态大语言模型的语义对齐

Aug, 2024

Semantic Alignment for Multimodal Large Language Models

Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin...

TL;DR该研究针对多模态大语言模型（MLLMs）在图像跨模态指令处理中的语义对齐问题，提出了一种新方法——语义对齐模型（SAM）。通过在视觉标记提取过程中实现不同图像之间的双向语义指导，SAM显著提升了图像间联系信息的保留，实验结果表明其在组caption任务和故事讲述任务上均明显优于现有方法，显示出巨大的潜在影响。

Abstract

Research on Multi-modal Large Language Models (MLLMs) towards the multi-image cross-modal instruction has received increasing attention and made significant progress, particularly in scenarios involving closely resembling images (e.g., change captioning). Existing MLLMs typically follo

发现论文，激发创造

如何弥合模态之间的差距：对多模态大语言模型的全面调查

本综述论文探讨了多模态大型语言模型（MLLMs），该模型整合了类似于GPT-4的大型语言模型（LLMs），用于处理文本和视觉等多模态数据。MLLMs展示了生成图像叙述和回答基于图像的问题等能力，缩小了人与计算机之间的差距，并暗示了通向人工智能的潜在途径。然而，MLLMs仍面临处理多模态语义差距的挑战，可能导致错误生成，对社会造成潜在风险。选择适当的模态对齐方法至关重要，因为不恰当的方法可能需要更多参数，并且性能改进有限。该论文旨在探讨LLMs的模态对齐方法及其现有能力。实施模态对齐使得LLMs能够解决环境问题并提高可访问性。研究调查了MLLMs中现有的模态对齐方法，分为四个组：（1）多模态转换器将数据转换为LLMs可以理解的格式；（2）多模态感知器改善LLMs对不同类型数据的感知能力；（3）工具辅助将数据转换为一种常见格式，通常是文本；以及（4）数据驱动方法教导LLMs理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段，我们将组织和更新各种现有的多模态信息对齐研究方法。

Nov, 2023

MLLMs增强的视觉-语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用MLLMs扩展每个图像的多个标题，通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得5.6〜35.0％和16.8〜46.1％的R@1提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对MLLMs的多方面使用的探索。

Nov, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

探索多模态大型语言模型的全局和局部语义表示

研究发现，模型的中间层能够更好地编码全局语义信息，表征向量在视觉-语言蕴含任务中表现更好，而最顶层的模型可能过于关注局部信息，导致对全局信息编码能力减弱。

Feb, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的LLM和MM-LLM的当前状况进行广泛回顾，本文涵盖了LLM的历史发展、注意力机制在提升模型性能方面的作用，以及Fine-tuning和prompt engineering等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在AI研究中的影响。通过这个综述，我们揭示了MM-LLM在各种应用中的转型潜力。

Mar, 2024

AlignGPT: 具有自适应对齐能力的多模态大型语言模型

利用新的多模态大型语言模型AlignGPT，通过在预训练阶段为不同的图像-文本对分配不同级别的对齐能力，并在指导微调阶段自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求，取得了12个基准测试的竞争性性能。

May, 2024

多模态大语言模型的长上下文能力基准测试

对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对MLLMs在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示GPT-4o在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对API模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Jun, 2024

多模态LLMs中的对齐理解：一项全面研究

多模态大语言模型中，偏好对齐是增强模型性能的关键组成部分，但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面，包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明，将离线和在线方法相结合可在某些情况下提高模型性能。

Jul, 2024

SEA：用于多模态大语言模型的标记级视觉文本集成的监督嵌入对齐

本研究解决了多模态大语言模型中视觉和语言组件之间的显著不对齐问题，限制了模型的实用性。提出的监督嵌入对齐（SEA）方法通过对比学习，将视觉标记与大语言模型的嵌入空间对齐，从而提升了模型的性能和可解释性。实验表明，SEA在无需增加额外数据或推理计算的情况下显著改善了模型表现，尤其是对小型模型影响显著。

Aug, 2024

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制，采用组合注意力机制，既不增加额外模块或可学习参数，又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能，具有显著的潜在影响。

Aug, 2024