UniGeo: 通过重构数学表达式统一几何逻辑推理
提出了一个名为 DualGeoSolver 的双重推理几何求解器,通过模拟人类的双重推理过程,从对人类推理过程和知识应用的显式建模中提高求解几何问题的准确率和鲁棒性。
May, 2024
本文提出了大规模的 Geometric Question Answering 数据集 GeoQA 和一个神经几何求解器 NGS,并通过多模式信息综合分析和生成可解释性程序来解决几何问题。
May, 2021
构建了一个大规模的几何问题的数据集,并提出了一种基于形式语言和符号推理的新的解决方案,称为可解释几何问题求解器 (Inter-GPS),其能够显著提高当前方法的解决几何问题的效果。
May, 2021
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
应用现代人工智能技术解决几何问题和自动演绎证明一直以来都是数学和人工智能交叉领域的重要挑战。本文提出了一种名为 FGeo-P 的定理预测器,利用语言模型预测几何问题的定理序列,从而提高了解决几何问题的性能,实验证明在 FormalGeo7k 数据集的问题解决率从 39.7% 提升至 80.86%。此外,FGeo-TP 在不同难度问题上表现出了解决时间和搜索步骤显著减少的特点。
Feb, 2024
在过去十年的工作中,我们构建了一个完整且兼容的平面几何形式系统,该系统在 IMO 级别的平面几何挑战和可读的 AI 自动推理之间建立了重要的桥梁。通过这个形式系统,我们成功地将现代 AI 模型与形式系统无缝整合。在这个形式框架内,AI 能够像处理其他自然语言一样,为 IMO 级别的平面几何问题提供演绎推理解决方案,并且这些证明是可读、可追溯和可验证的。我们提出了几何形式化理论(GFT)来指导几何形式系统的发展。根据 GFT,我们构建了 FormalGeo,它包含 88 个几何谓词和 196 个定理,可以表示、验证和解决 IMO 级别的几何问题。我们还使用 Python 开发了 FGPS(形式几何问题解决器),它既可作为交互式助手验证问题解决过程,又可作为自动化问题解决器利用前向搜索、后向搜索和 AI 辅助搜索等多种方法。我们标注了 FormalGeo7k 数据集,其中包含 6,981 个几何问题的完整形式语言注释(通过数据增强扩展为 186,832 个问题)。对形式系统的实施和对 FormalGeo7k 的实验验证了 GFT 的正确性和实用性。后向深度优先搜索方法只有 2.42% 的问题解决失败率,而我们可以结合深度学习技术实现更低的失败率。FGPS 和 FormalGeo7k 数据集的源代码可在此 https URL 获取。
Oct, 2023
通过 MM-MATH 数据集,该研究旨在评估多模态模型在几何计算领域的性能,发现当前模型从图像中解析和解释几何信息存在显著不足,强调评估方法应包括推理和过程正确性,以填补文本和图像理解方面的关键差距,以此激发进一步研究和发展,推动多模态模型能力的提升。
Apr, 2024
通过分别处理图形符号和几何基元来增强几何关系的提取,并将提取的关系转化为自然语言描述,从而高效利用大型语言模型解决几何数学问题。实验证明,GOLD 模型在 UniGeo 数据集上表现优于 Geoformer,并分别在计算和证明子集中提高了 12.7% 和 42.1% 的准确率。此外,在 PGPS9K 和 Geometry3K 数据集上也优于 PGPSNet,分别获得了 1.8% 和 3.2% 的准确率提升。
May, 2024
通过提出几何感知问题求解器(GAPS)模型,我们解决了几何问题求解中的挑战,该模型以其独特的问题类型分类器为帮助,生成不同类型几何数学问题的解决方案程序。借助 GAPS 对几何元素进行准确识别的改进,我们展示了其在解决几何数学问题方面的优越性能。在 UniGeo 数据集上的实验证明了 GAPS 模型在计算任务上超过 Geoformer 模型 5.3% 的准确率提升以及在证明任务上惊人的 41.1% 提升,特别是在证明问题上达到令人印象深刻的 97.5% 准确率,为几何证明任务的解决带来了重要进展。
Jan, 2024
最近的大型语言模型(LLMs)和多模态模型(MMs)在问题解决方面展示了卓越的能力,但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白,我们引入了 GeoEval 基准测试,它包括一个主子集、一个重点关注逆向推理的 750 个问题子集、一个增强的 2000 个问题子集和一个困难的 300 个问题子集。这个基准测试有助于更深入地研究 LLMs 和 MMs 在解决几何数学问题方面的性能。我们对这些不同子集中的十个 LLMs 和 MMs 进行评估,发现 WizardMath 模型表现出色,在主子集上的准确率达到 55.67%,但在困难子集上只有 6.00%的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外,我们的研究结果表明,GPT 系列模型在它们重新表述的问题上表现更有效,这为增强模型能力提供了有希望的方法。
Feb, 2024