鹰:探索具有编码器混合的多模态大型语言模型的设计空间
本文介绍了一个名为MERLIM的多模式评估基准,用于评估IT-LVLM在基本计算机视觉任务中的表现,发现先进的IT-LVLM仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或LLM组件中的文本偏见进行恰当的猜测。
Dec, 2023
人类具有视觉感知的出色技能,近期多模态大型语言模型(MLLM)在视觉与语言任务上取得了令人印象深刻的性能,但在识别或计数图像中的实体方面存在一些问题。为了改善多模态LLM在感知和推理方面的准确性,我们提出使用VCoder作为多模态LLM的感知工具,该工具能够通过接收分割或深度图等感知方式来提升多模态LLM的感知能力。此外,我们利用COCO图像和现成的视觉感知模型输出来创建COST数据集,用于训练和评估MLLM在对象感知任务上的表现。最后,我们提供了大量的实验证据,证明了VCoder在对象级感知能力上相比其他多模态LLM(包括GPT-4V)的改进。我们公开发布了我们的数据集、代码和模型,以促进相关研究。
Dec, 2023
通过对CLIP模型的视觉嵌入空间与仅视觉自监督学习的对比研究,我们发现最新的多模态大型语言模型(MLLMs)在视觉能力方面仍然存在系统性缺陷。为了解决这些问题,我们提出了一种特征混合(MoF)方法,通过将视觉自监督学习特征与MLLMs相结合,显著提高了它们的视觉基础能力,从而表明视觉表示学习仍然是一个待解决的问题,并且准确的视觉基础对于未来成功的多模态系统至关重要。
Jan, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
我们引入了Cambrian-1,一种以视觉为中心的多模态LLMs(MLLMs)系列,通过视觉指导调整作为接口,评估各种视觉表示,并提出了空间视觉聚合器(SVA)来进一步改进视觉定位,同时降低标记数量。此外,我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性,并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案,希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。
Jun, 2024
用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合,从未筛选过的LAION数据集选择了100万张高度代表性的图片,生成了密集描述数据集,通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力,验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。
Jul, 2024
本研究解决了多模态大语言模型在高分辨率图像理解中的不足,尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架,通过分割、生成文本描述及结合信息,显著提升模型在4K和8K图像上的感知能力。实验结果表明,该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。
Aug, 2024
本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题,通过提出EAGLE模型,能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中,从而提升了模型的语义理解能力,并结合几何无关学习的理念,验证了其在多样化参考提示场景中的卓越表现。
Sep, 2024
本研究针对现有多模态大型语言模型(MLLM)在处理任意指称视觉提示时的有效性不足和架构冗余问题,提出了EAGLE方法,显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式,并引入空间概念嵌入,从而提升了模型对特定空间区域的语义理解,展示了在多样化实际场景中的高效表现。
Sep, 2024