Dec, 2023

GeomVerse:几何推理的大型模型的系统评估

TL;DR大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。