Feb, 2024

CODIS:面向多模态大型语言模型的上下文相关视觉理解基准测试

TL;DR多模态大语言模型 (MLLMs) 在结合视觉和语言的各种任务中展现了有前景的结果。本研究引入了一个被命名为 CODIS 的新基准,旨在评估模型利用自由文本中提供的上下文来增强视觉理解能力。我们的研究结果显示 MLLMs 在该基准上始终无法达到人类表现水平,进一步分析证实这些模型在提取和利用上下文信息以改善对图像的理解方面存在困难,强调了提高 MLLMs 以上下文相关方式理解视觉信息的迫切需求。