G-LLaVA:多模态大型语言模型解决几何问题
本文提出了大规模的Geometric Question Answering数据集GeoQA和一个神经几何求解器NGS,并通过多模式信息综合分析和生成可解释性程序来解决几何问题。
May, 2021
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了LLMs在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前LLMs面临的显著挑战,尽管在类似领域取得了很多成功。LLMs在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于LLMs的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了LLMs在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
最近的大型语言模型(LLMs)和多模态模型(MMs)在问题解决方面展示了卓越的能力,但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白,我们引入了GeoEval基准测试,它包括一个主子集、一个重点关注逆向推理的750个问题子集、一个增强的2000个问题子集和一个困难的300个问题子集。这个基准测试有助于更深入地研究LLMs和MMs在解决几何数学问题方面的性能。我们对这些不同子集中的十个LLMs和MMs进行评估,发现WizardMath模型表现出色,在主子集上的准确率达到55.67%,但在困难子集上只有6.00%的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外,我们的研究结果表明,GPT系列模型在它们重新表述的问题上表现更有效,这为增强模型能力提供了有希望的方法。
Feb, 2024
通过MM-MATH数据集,该研究旨在评估多模态模型在几何计算领域的性能,发现当前模型从图像中解析和解释几何信息存在显著不足,强调评估方法应包括推理和过程正确性,以填补文本和图像理解方面的关键差距,以此激发进一步研究和发展,推动多模态模型能力的提升。
Apr, 2024
使用GPT-4和GPT-4V生成对齐的文本和图像的几何问题数据集GeoGPT4V,显著提高了各种模型在MathVista和MathVision基准测试中的几何性能。
Jun, 2024
利用大型语言模型提高多模态数学推理能力的关键是多模态数学数据集的多样性和合成,其中MathV360K数据集和Math-LLaVA模型为此做出了显著贡献。
Jun, 2024
本研究针对现有视觉语言模型在几何问题解决中的不足,提出了GeoCoder,通过模块化代码微调生成和执行代码,利用预定义的几何函数库实现了精确计算。研究表明,该方法在GeomVerse数据集上相较于其他微调方法平均提升了超过16%的几何推理能力。
Oct, 2024
该研究解决了大型多模态模型在几何推理中缺乏高质量图像文本配对数据的问题。提出的逆思维链(R-CoT)问题生成管道,利用GeoChain生成高保真几何图像和描述,再通过反向提问和回答的方法进行推理,显著提高了模型的性能,尤其在MathVista和GeoQA数据集上取得超过前沿模型的显著进展。
Oct, 2024
本研究解决了大型多模态模型在几何数学推理中因高质量图像-文本配对数据不足而面临的问题。提出的反向思维链(R-CoT)生成管道通过引入GeoChain生成高保真几何图像及其描述,并采用反向问答法进行逐步推理,从而生成问题。实验证明,该方法在多个基准上显著提升了性能,尤其在MathVista和GeoQA数据集上,R-CoT-8B超越了现有的开源数学模型和GPT-4o。
Oct, 2024