鹰：探索具有编码器混合的多模态大型语言模型的设计空间

Aug, 2024

鹰：探索具有编码器混合的多模态大型语言模型的设计空间

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan...

TL;DR本研究针对多模态大型语言模型（MLLMs）中复杂视觉信息解读的不足，提出了一种新颖的设计空间探索方法，强调编码器的组合与解析度。研究发现，通过简单地连接来自互补视觉编码器的视觉标记，能够与更复杂的组合结构一样有效，同时引入的预对齐技术有助于提升模型一致性，使得新模型鹰在主要基准测试中表现优于其他开源模型。

Abstract

The ability to accurately interpret complex visual information is a crucial topic of multimodal large language models (MLLMs). Recent work indicates that enhanced visual perception significantly reduces hallucinations and improves performance on resolution-sensitive tasks, such as optical character recognition and document analysis. A number of recent MLLMs

发现论文，激发创造

魔法后的MERLIM: 大型图像-语言模型的多模态评估基准

本文介绍了一个名为MERLIM的多模式评估基准，用于评估IT-LVLM在基本计算机视觉任务中的表现，发现先进的IT-LVLM仍然有限于识别精细的视觉概念，对象幻觉在各种任务中普遍存在，而且结果受输入查询的细微变化的强烈偏见影响，即使查询具有相同的语义。研究结果还表明，这些模型在视觉基础上较弱，但仍然可以通过全局视觉模式或LLM组件中的文本偏见进行恰当的猜测。

Dec, 2023

VCoder: 用于多模态大型语言模型的多用途视觉编码器

人类具有视觉感知的出色技能，近期多模态大型语言模型（MLLM）在视觉与语言任务上取得了令人印象深刻的性能，但在识别或计数图像中的实体方面存在一些问题。为了改善多模态LLM在感知和推理方面的准确性，我们提出使用VCoder作为多模态LLM的感知工具，该工具能够通过接收分割或深度图等感知方式来提升多模态LLM的感知能力。此外，我们利用COCO图像和现成的视觉感知模型输出来创建COST数据集，用于训练和评估MLLM在对象感知任务上的表现。最后，我们提供了大量的实验证据，证明了VCoder在对象级感知能力上相比其他多模态LLM（包括GPT-4V）的改进。我们公开发布了我们的数据集、代码和模型，以促进相关研究。

Dec, 2023

多模态LLM的视觉缺陷探究

通过对CLIP模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与MLLMs相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

Cambrian-1：全面开放、以视觉为中心的多模态LLMs研究

我们引入了Cambrian-1，一种以视觉为中心的多模态LLMs（MLLMs）系列，通过视觉指导调整作为接口，评估各种视觉表示，并提出了空间视觉聚合器（SVA）来进一步改进视觉定位，同时降低标记数量。此外，我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性，并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案，希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。

Jun, 2024

DenseFusion-1M：融合多种视觉专家的全面多模态感知

用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合，从未筛选过的LAION数据集选择了100万张高度代表性的图片，生成了密集描述数据集，通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力，验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。

Jul, 2024

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

本研究解决了多模态大语言模型在高分辨率图像理解中的不足，尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架，通过分割、生成文本描述及结合信息，显著提升模型在4K和8K图像上的感知能力。实验结果表明，该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。

Aug, 2024

EAGLE：朝着高效任意参考视觉提示的理解迈进

本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题，通过提出EAGLE模型，能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中，从而提升了模型的语义理解能力，并结合几何无关学习的理念，验证了其在多样化参考提示场景中的卓越表现。

Sep, 2024

EAGLE：迈向高效任意指称视觉提示理解的多模态大型语言模型

本研究针对现有多模态大型语言模型（MLLM）在处理任意指称视觉提示时的有效性不足和架构冗余问题，提出了EAGLE方法，显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式，并引入空间概念嵌入，从而提升了模型对特定空间区域的语义理解，展示了在多样化实际场景中的高效表现。

Sep, 2024