探索多模态大型语言模型的感知限制
通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准,评估了多模式大型语言模型在低层视觉感知和理解方面的能力,并发现其具有基本的低层视觉技能,但这些技能仍不稳定和相对不精确,需要针对这些能力进行特定的增强。
Sep, 2023
这项研究探讨了多模态大型语言模型在处理不同图像和问题属性时是否能够感知图像的细节,并表明它们在回答视觉问题的零样本准确性受到问题中视觉主体大小的敏感性,但通过人工裁剪可以显著缓解这种敏感性影响,并提出了三种自动图像裁剪方法用于改进多模态大型语言模型的零样本性能。
Oct, 2023
通过提出一种新的框架,称为近距离问答(Proximity QA),我们可以增强多模态大语言模型在深度感知和相对距离分析方面的性能。
Jan, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
使用视觉和文本提示的新方法(VTPrompt)提高了Multimodal Large Language Models在物体感知方面的能力,并在三个基准测试上表现出显著的改进。
Apr, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
通过提出一个多模态鲁棒性评估基准以及一个训练集,我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性,而这种脆弱性可以通过在新的训练集上进行微调来显著增强。
Jun, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024
本研究针对多模态大型语言模型(MLLMs)在主动感知能力评估中的不足,提出了一种新的基准测试工具ActiView。该工具专注于通过一种特殊的视觉问答形式评估主动感知,发现MLLMs在同时读取和理解多张图像方面存在显著差距,强调需要对此领域给予更多关注。
Oct, 2024