DenseFusion-1M：融合多种视觉专家的全面多模态感知

Jul, 2024

DenseFusion-1M：融合多种视觉专家的全面多模态感知

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang...

TL;DR用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合，从未筛选过的LAION数据集选择了100万张高度代表性的图片，生成了密集描述数据集，通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力，验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。

Abstract

Existing multimodal large language models (MLLMs) increasingly emphasize complex understanding of various visual elements, including multiple objects, text information, and spatial relations. Their development for comprehensive →

发现论文，激发创造

从CLIP到DINO：多模式大型语言模型中的视觉编码器喊出来

该研究通过对多模态大型语言模型（MLLMs）中不同视觉编码器的有效性进行深入调查，发现了CLIP的浅层特征在细粒度任务（如定位和区域理解）中具有特殊优势。同时，研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能，只需为其配备一个MLP层进行对齐，DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果，研究提出了一种简单而有效的特征融合策略，称为COMM，它通过多层次特征融合将CLIP和DINO结合起来，以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能，展示了其在MLLMs中增强的视觉能力。

Oct, 2023

LION：赋能双层视觉知识的多模态大语言模型

多模态大型语言模型（MLLMs）借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法，我们的模型在多个多模态基准测试中展示了过人的优越性能。

Nov, 2023

VCoder: 用于多模态大型语言模型的多用途视觉编码器

人类具有视觉感知的出色技能，近期多模态大型语言模型（MLLM）在视觉与语言任务上取得了令人印象深刻的性能，但在识别或计数图像中的实体方面存在一些问题。为了改善多模态LLM在感知和推理方面的准确性，我们提出使用VCoder作为多模态LLM的感知工具，该工具能够通过接收分割或深度图等感知方式来提升多模态LLM的感知能力。此外，我们利用COCO图像和现成的视觉感知模型输出来创建COST数据集，用于训练和评估MLLM在对象感知任务上的表现。最后，我们提供了大量的实验证据，证明了VCoder在对象级感知能力上相比其他多模态LLM（包括GPT-4V）的改进。我们公开发布了我们的数据集、代码和模型，以促进相关研究。

Dec, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

BLINK：多模态大型语言模型具备视觉但无感知能力

Blink是一个针对多模式语言模型（LLMs）的新基准，重点关注其他评估中找不到的核心视觉感知能力。通过对14个经典的计算机视觉任务进行改组，Blink生成了3,807个多项选择题，配备单个或多个图像和视觉提示。虽然人类平均准确率为95.70%，但Blink对现有的多模式LLMs具有意外的挑战性，即使是表现最佳的GPT-4V和Gemini准确率也只有51.26%和45.72%，仅比随机猜测高出13.17%和7.63%，表明这些感知能力在最近的多模式LLMs中尚未“出现”。我们的分析还突出了专家级计算机视觉模型在解决这些问题方面表现更好，这为未来的改进提供了潜在途径。我们相信Blink将激发社区的努力，帮助多模式LLMs赶上人类水平的视觉感知。

Apr, 2024

MLLMs的密集连接器

我们引入了密集连接器——一个简单、有效且即插即用的视觉语言连接器，通过利用多层视觉特征显著增强现有的多模态大型语言模型(MLLMs)，并且在仅依靠图像训练的情况下，展示了在视频理解方面的显著零样本能力。

May, 2024

Cambrian-1：全面开放、以视觉为中心的多模态LLMs研究

我们引入了Cambrian-1，一种以视觉为中心的多模态LLMs（MLLMs）系列，通过视觉指导调整作为接口，评估各种视觉表示，并提出了空间视觉聚合器（SVA）来进一步改进视觉定位，同时降低标记数量。此外，我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性，并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案，希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。

Jun, 2024

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

本研究解决了多模态大语言模型在高分辨率图像理解中的不足，尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架，通过分割、生成文本描述及结合信息，显著提升模型在4K和8K图像上的感知能力。实验结果表明，该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。

Aug, 2024