AdaptVision：多模态大语言模型中动态输入缩放的场景理解

Aug, 2024

AdaptVision：多模态大语言模型中动态输入缩放的场景理解

AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding

Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li

TL;DR本研究针对多模态大语言模型在处理不同分辨率图像时面临的挑战，提出了AdaptVision模型。该模型通过动态调整视觉标记的数量来优化输入数据，从而提高对自然图像和文本图像的理解能力，显著提升了在视觉语言任务中的表现。

Abstract

Over the past few years, the advancement of Multimodal Large Language Models (MLLMs) has captured the wide interest of researchers, leading to numerous innovations to enhance MLLMs' comprehension. In this paper,

发现论文，激发创造

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

美餐之眼: 多模态大型语言模型的分辨率混合适应

基于图像分辨率的新型多模态大语言模型方法(LLaVA-HR)通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题，在11个视觉-语言任务中表现出比现有模型更好的性能。

Mar, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源MLLMs在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

MLLMs的密集连接器

我们引入了密集连接器——一个简单、有效且即插即用的视觉语言连接器，通过利用多层视觉特征显著增强现有的多模态大型语言模型(MLLMs)，并且在仅依靠图像训练的情况下，展示了在视频理解方面的显著零样本能力。

May, 2024

意识到提示的适配器：为多模态大型语言模型学习自适应的视觉特征

为了弥补视觉和语言模态之间的差距，我们提出了prompt-aware适配器，这些适配器根据提示的特定焦点动态嵌入视觉输入，以从提示中捕捉到最相关的视觉线索，从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明prompt-aware适配器在各种视觉问答任务（如计数和位置推理）中的有效性。

May, 2024

多模态大语言模型的可视化能力：一项比较研究

利用可视化素养的概念评估多模式大语言模型（MLLMs）的性能，研究表明MLLMs在可视化素养方面具有竞争力，能够优于人类在识别相关性、聚类和层次结构等任务中。

Jun, 2024

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

本研究解决了多模态大语言模型在高分辨率图像理解中的不足，尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架，通过分割、生成文本描述及结合信息，显著提升模型在4K和8K图像上的感知能力。实验结果表明，该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。

Aug, 2024