探索多模态大型语言模型的全局和局部语义表示

COLINGFeb, 2024

探索多模态大型语言模型的全局和局部语义表示

Probing Multimodal Large Language Models for Global and Local Semantic Representation

Mingxu Tao, Quzhe Huang, Kun Xu, Liwei Chen, Yansong Feng...

TL;DR研究发现，模型的中间层能够更好地编码全局语义信息，表征向量在视觉 - 语言蕴含任务中表现更好，而最顶层的模型可能过于关注局部信息，导致对全局信息编码能力减弱。

Abstract

The success of large language models has inspired researchers to transfer their exceptional representing ability to other modalities. Several recent works leverage image-caption alignment datasets to train multimodal

large language models multimodal global information local information visual-language entailment

发现论文，激发创造

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

超高像素大型多模态模型

高分辨率是大型多模式模型（LMMs）的基础，本论文提出了一种新的框架和优化策略，通过混合适配器从全局视图中提取上下文信息，并引入可学习的查询嵌入来减少图像标记，同时通过相似性选择器选择用户问题的关键标记，实现更好的性能表现。此外，通过交替训练的方式平衡学习全局和局部方面，并引入高要求图像细节的数据集来增强局部压缩层的训练，提出的方法在各项基准测试中表现出优异性能。

Jun, 2024

神秘投影：多模态 LLMs 获得领域特定的视觉能力，无需更丰富的跨模态投影

通过实验证明，对多模态大型语言模型进行微调时，虽然确实获得了特定领域的视觉能力，但更新不会导致提取相关的特定领域视觉属性。结果表明，即使只对投影进行微调，领域特定的视觉属性仍由语言模型来建模。通过这项研究，我们提供了对多模态大型语言模型架构中交叉模态投影作用的潜在重新解释。

Feb, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

多模态大型语言模型中信息存储和传递的理解

理解变压器模型中的信息存储和传输机制对推进模型理解的进展至关重要，最近的研究关注了大型语言模型（LLMs）中的这些机制，揭示了信息存储在模型参数中的方式以及特定提示下信息如何流入和流出这些参数，然而，这些研究尚未扩展到多模态大型语言模型（MLLMs）。

Jun, 2024