DenseFusion-1M:融合多种视觉专家的全面多模态感知
该研究通过对多模态大型语言模型(MLLMs)中不同视觉编码器的有效性进行深入调查,发现了CLIP的浅层特征在细粒度任务(如定位和区域理解)中具有特殊优势。同时,研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能,只需为其配备一个MLP层进行对齐,DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果,研究提出了一种简单而有效的特征融合策略,称为COMM,它通过多层次特征融合将CLIP和DINO结合起来,以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能,展示了其在MLLMs中增强的视觉能力。
Oct, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
人类具有视觉感知的出色技能,近期多模态大型语言模型(MLLM)在视觉与语言任务上取得了令人印象深刻的性能,但在识别或计数图像中的实体方面存在一些问题。为了改善多模态LLM在感知和推理方面的准确性,我们提出使用VCoder作为多模态LLM的感知工具,该工具能够通过接收分割或深度图等感知方式来提升多模态LLM的感知能力。此外,我们利用COCO图像和现成的视觉感知模型输出来创建COST数据集,用于训练和评估MLLM在对象感知任务上的表现。最后,我们提供了大量的实验证据,证明了VCoder在对象级感知能力上相比其他多模态LLM(包括GPT-4V)的改进。我们公开发布了我们的数据集、代码和模型,以促进相关研究。
Dec, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
Blink是一个针对多模式语言模型(LLMs)的新基准,重点关注其他评估中找不到的核心视觉感知能力。通过对14个经典的计算机视觉任务进行改组,Blink生成了3,807个多项选择题,配备单个或多个图像和视觉提示。虽然人类平均准确率为95.70%,但Blink对现有的多模式LLMs具有意外的挑战性,即使是表现最佳的GPT-4V和Gemini准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%,表明这些感知能力在最近的多模式LLMs中尚未“出现”。我们的分析还突出了专家级计算机视觉模型在解决这些问题方面表现更好,这为未来的改进提供了潜在途径。我们相信Blink将激发社区的努力,帮助多模式LLMs赶上人类水平的视觉感知。
Apr, 2024
我们引入了密集连接器——一个简单、有效且即插即用的视觉语言连接器,通过利用多层视觉特征显著增强现有的多模态大型语言模型(MLLMs),并且在仅依靠图像训练的情况下,展示了在视频理解方面的显著零样本能力。
May, 2024
我们引入了Cambrian-1,一种以视觉为中心的多模态LLMs(MLLMs)系列,通过视觉指导调整作为接口,评估各种视觉表示,并提出了空间视觉聚合器(SVA)来进一步改进视觉定位,同时降低标记数量。此外,我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性,并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案,希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。
Jun, 2024
本研究解决了多模态大语言模型在高分辨率图像理解中的不足,尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架,通过分割、生成文本描述及结合信息,显著提升模型在4K和8K图像上的感知能力。实验结果表明,该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。
Aug, 2024