多模式大型语言模型中对失知症的评估与缓解
本文介绍了第一代 MLLM 评估基准 - MME 模型,并对 10 种先进的 MLLM 模型进行了全面评估,同时对模型优化的潜在方向进行了研究。
Jun, 2023
通过使用全面的评估框架MM-BigBench,本文综合评估了20个语言模型(包括14个多模态大型语言模型)在14个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
通过构建全面的评估框架(ChEF),对多模态大语言模型(MLLMs)的能力和限制进行标准化和全面的评估,以及提出新的评估方法和模型集成工具包,以促进MLLM社区的进一步分析和发展。
Nov, 2023
综合评估了多模态大语言模型的现有评估协议,分类和说明了多模态大语言模型的前沿,介绍了多模态大语言模型在推理密集型任务上的最新趋势,并讨论了当前的实践和未来的发展方向。
Jan, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
在多模态大型语言模型中,研究了其对小型视觉对象的感知限制,发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索,为未来模型的感知分析提供了新的评价协议。
Feb, 2024
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源GPT-4V能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
Mar, 2024
一个名为Mutually Reinforced Multimodal Large Language Model (MR-MLLM)的新框架,通过共享查询融合机制和增强的跨模态集成方法,结合视觉感知和多模态理解,以及混合了感知信息的提示生成机制,提供更准确的多模态解释,在各种多模态理解和视觉感知任务中展现卓越性能。
Jun, 2024
本研究针对多模态大型语言模型(MLLMs)评估方法的不足,进行了系统的综述。通过分析评估内容、基准和步骤,提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解,强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。
Aug, 2024