Feb, 2024

GeoEval:几何问题解决中评估 LLM 和多模型的基准

TL;DR最近的大型语言模型(LLMs)和多模态模型(MMs)在问题解决方面展示了卓越的能力,但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白,我们引入了 GeoEval 基准测试,它包括一个主子集、一个重点关注逆向推理的 750 个问题子集、一个增强的 2000 个问题子集和一个困难的 300 个问题子集。这个基准测试有助于更深入地研究 LLMs 和 MMs 在解决几何数学问题方面的性能。我们对这些不同子集中的十个 LLMs 和 MMs 进行评估,发现 WizardMath 模型表现出色,在主子集上的准确率达到 55.67%,但在困难子集上只有 6.00%的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外,我们的研究结果表明,GPT 系列模型在它们重新表述的问题上表现更有效,这为增强模型能力提供了有希望的方法。