Nov, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

TL;DR我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。