多模态大语言模型中的视觉表示法则
通过ReForm-Eval基准测试,我们对LVLM的各种能力进行了全面的定量评估,发现并分析了现有LVLM的优点和缺点,并确定了潜在的影响因素。
Oct, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在VLMs设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个8亿参数的高效基础VLM模型
May, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024
本研究解决了多模态大语言模型中视觉和语言组件之间的显著不对齐问题,限制了模型的实用性。提出的监督嵌入对齐(SEA)方法通过对比学习,将视觉标记与大语言模型的嵌入空间对齐,从而提升了模型的性能和可解释性。实验表明,SEA在无需增加额外数据或推理计算的情况下显著改善了模型表现,尤其是对小型模型影响显著。
Aug, 2024
本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制,采用组合注意力机制,既不增加额外模块或可学习参数,又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能,具有显著的潜在影响。
Aug, 2024
本研究针对多模态大型语言模型(MLLMs)评估方法的不足,进行了系统的综述。通过分析评估内容、基准和步骤,提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解,强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。
Aug, 2024