推进几何问题求解:多模型评估的全面基准
最近的大型语言模型(LLMs)和多模态模型(MMs)在问题解决方面展示了卓越的能力,但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白,我们引入了 GeoEval 基准测试,它包括一个主子集、一个重点关注逆向推理的 750 个问题子集、一个增强的 2000 个问题子集和一个困难的 300 个问题子集。这个基准测试有助于更深入地研究 LLMs 和 MMs 在解决几何数学问题方面的性能。我们对这些不同子集中的十个 LLMs 和 MMs 进行评估,发现 WizardMath 模型表现出色,在主子集上的准确率达到 55.67%,但在困难子集上只有 6.00%的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外,我们的研究结果表明,GPT 系列模型在它们重新表述的问题上表现更有效,这为增强模型能力提供了有希望的方法。
Feb, 2024
利用图像输入,通过理解几何问题,使大型语言模型能够解决几何问题,构建了一个丰富的多模态几何数据集 Geo170K,发展了 G-LLaVA, 在 MathVista 基准测试上以仅有 7B 参数显著优于 GPT-4-V。
Dec, 2023
我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力,并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距,强调了对大规模多模态模型的进一步发展的必要性,此外,我们的详细分类还允许对其错误进行全面分析,为未来的研究和开发提供有价值的见解。
Feb, 2024
使用 GPT-4 和 GPT-4V 生成对齐的文本和图像的几何问题数据集 GeoGPT4V,显著提高了各种模型在 MathVista 和 MathVision 基准测试中的几何性能。
Jun, 2024
WE-MATH 是第一个旨在探索问题解决原则的基准测试,通过分解复合问题,并引入新的四维度评估指标,评估了 LMMs 在视觉数学推理中的固有问题,为知识获取与泛化提供支持,评估现有 LMMs 在视觉数学推理中的表现,揭示了求解步骤与问题特定表现之间的负相关,并指出 GPT-4o 的主要挑战由不足的知识转变为不足的泛化。
Jul, 2024
本文提出了大规模的 Geometric Question Answering 数据集 GeoQA 和一个神经几何求解器 NGS,并通过多模式信息综合分析和生成可解释性程序来解决几何问题。
May, 2021
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
通过引入 MathVerse 基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为 MLLMs 的未来发展提供独特的见解。
Mar, 2024
该研究介绍了 MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉 - 语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
大型多模态模型(LMMs)在视觉理解和推理方面取得了令人瞩目的成功,显著提高了数学推理在视觉环境中的性能。然而,多模态图理论问题是一类具有挑战性的视觉数学问题,要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准,用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务,从连通性到最短路径问题。随后,我们提出了一个描述 - 编程 - 推理(DPR)链,在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明:1)GPT-4V 在多步图推理方面优于 Gemini Pro;2)无论在零 / 少样本设置还是在受监督微调(SFT)中,所有 LMM 在图形结构的感知准确性方面表现较差,这进一步影响了问题解决的性能;3)DPR 显著提高了 LMM 的多步图推理能力,GPT-4V(DPR)代理达到了 SOTA 性能。
May, 2024