Feb, 2024

多模态理解排行榜:文本与图像

TL;DRMulti 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。