Jun, 2024

多模态大语言模型的长上下文能力基准测试

TL;DR对多模态大语言模型进行了全面评估,介绍了一种用于长上下文能力评估的基准测试方法,包括多图像输入和图像拼接,以加大输入上下文长度,并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述,对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型,但在负样本(即针未在抽屉中)中存在错误信息生成问题。此外,对 API 模型和开源模型进行了综合的长上下文评估,显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。