多模式大型语言模型中对失知症的评估与缓解

Sep, 2023

多模式大型语言模型中对失知症的评估与缓解

Evaluation and Mitigation of Agnosia in Multimodal Large Language Models

Jiaying Lu, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang...

TL;DR我们提出了一个名为 EMMA 的框架，用于全面评估和减轻多模态语言模型中的agnosia，并通过多模态指导调整来减少agnosia，并证实了该框架的有效性。

Abstract

While multimodal large language models (MLLMs) are widely used for a variety of vision-language tasks, one observation is that they sometimes misinterpret visual inputs or fail to follow textual instructions even in straightforward cases, leading to irrelevant responses, mistakes, and

发现论文，激发创造

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

ChEF: 一个综合评估框架用于对多模态大型语言模型进行标准化评估

通过构建全面的评估框架（ChEF），对多模态大语言模型（MLLMs）的能力和限制进行标准化和全面的评估，以及提出新的评估方法和模型集成工具包，以促进MLLM社区的进一步分析和发展。

Nov, 2023

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

探索多模态大型语言模型的感知限制

在多模态大型语言模型中，研究了其对小型视觉对象的感知限制，发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索，为未来模型的感知分析提供了新的评价协议。

Feb, 2024

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源GPT-4V能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为Mutually Reinforced Multimodal Large Language Model (MR-MLLM)的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024

多模态大型语言模型的评估综述

本研究针对多模态大型语言模型（MLLMs）评估方法的不足，进行了系统的综述。通过分析评估内容、基准和步骤，提供了研究人员在促进更强大和可靠的MLLMs发展中的重要见解，强调评估在这一领域的关键性。研究结果可能为实现人工通用智能铺平道路。

Aug, 2024