Jul, 2024

NTSEBENCH:面向视觉语言模型的认知推理基准

TL;DR本研究提出了一个新的数据集NTSEBench,用于评估大型模型的认知多模式推理和问题解决能力。该数据集包含2,728个多项选择题,涵盖了来自印度全国范围的NTSE考试中的26个类别中的4,642张图片,包括文字和视觉一般才能问题,不依赖机械学习。我们使用最先进的LLM和VLM在数据集上建立了基准。为了便于开源和专有模型之间的比较,我们提出了四种不同的建模策略来处理数据集实例中的不同模态(文字和图片)。