划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

Aug, 2024

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models

HTML

PDF

Wenbin Wang, Liang Ding, Minyan Zeng, Xiabin Zhou, Li Shen...

TL;DR本研究解决了多模态大语言模型在高分辨率图像理解中的不足，尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架，通过分割、生成文本描述及结合信息，显著提升模型在4K和8K图像上的感知能力。实验结果表明，该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。

Abstract

Multimodal Large Language Models (MLLMs) have experienced significant advancements recently, but still struggle to recognize and interpret intricate details in high-resolution (HR) images effectively. While state-of-the-art (SOTA) MLLMs claim to process images at 4K resolution, existin

发现论文，激发创造

Q-Bench：针对低级视觉的通用基准模型基准

通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准，评估了多模式大型语言模型在低层视觉感知和理解方面的能力，并发现其具有基本的低层视觉技能，但这些技能仍不稳定和相对不精确，需要针对这些能力进行特定的增强。

Sep, 2023

LION：赋能双层视觉知识的多模态大语言模型

多模态大型语言模型（MLLMs）借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法，我们的模型在多个多模态基准测试中展示了过人的优越性能。

Nov, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

InfiMM-HD：高分辨率多模态理解的巨大跃进

为了解决多模态大型语言模型在处理高分辨率图像时的准确识别和理解复杂细节方面的挑战，我们提出了InfiMM-HD，一种专门设计用于处理不同分辨率图像的创新架构，能够提高模型的视觉感知能力，同时降低计算成本。经验证明InfiMM-HD具有鲁棒性和高效性，为相关领域的研究提供了新的探索途径。

Mar, 2024

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题，我们提出了MMStar，这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM，以评估它们的多模态能力，并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源MLLMs在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

DenseFusion-1M：融合多种视觉专家的全面多模态感知

用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合，从未筛选过的LAION数据集选择了100万张高度代表性的图片，生成了密集描述数据集，通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力，验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。

Jul, 2024

AdaptVision：多模态大语言模型中动态输入缩放的场景理解

本研究针对多模态大语言模型在处理不同分辨率图像时面临的挑战，提出了AdaptVision模型。该模型通过动态调整视觉标记的数量来优化输入数据，从而提高对自然图像和文本图像的理解能力，显著提升了在视觉语言任务中的表现。

Aug, 2024