通过模拟人类双重推理过程学习解决几何问题
构建了一个大规模的几何问题的数据集,并提出了一种基于形式语言和符号推理的新的解决方案,称为可解释几何问题求解器 (Inter-GPS),其能够显著提高当前方法的解决几何问题的效果。
May, 2021
本文提出了一种基于神经网络的解题方案 PGPSNet 来解决几何问题求解中的模态融合问题;通过把图解转化成文本描述来更有效地描述数据特征,并结合结构和语义训练、数据增强和自限制解码等来增强几何理解和推理。此外,还构建了一个新的大规模、细粒度的 PGPS9K 数据库来帮助该领域的研究。我们在 PGPS9K 和 Geometry3K 数据集上的实验验证了该方法的优越性。
Feb, 2023
通过分别处理图形符号和几何基元来增强几何关系的提取,并将提取的关系转化为自然语言描述,从而高效利用大型语言模型解决几何数学问题。实验证明,GOLD 模型在 UniGeo 数据集上表现优于 Geoformer,并分别在计算和证明子集中提高了 12.7% 和 42.1% 的准确率。此外,在 PGPS9K 和 Geometry3K 数据集上也优于 PGPSNet,分别获得了 1.8% 和 3.2% 的准确率提升。
May, 2024
本文介绍了一个名为 FGeoDRL 的神经符号系统,用于自动执行类似人类的几何演绎推理。该系统通过强化学习建立策略网络进行定理选择,并使用蒙特卡洛树搜索进行启发式探索。实验结果表明,在形式化数据集上,FGeoDRL 实现了 86.40%的几何问题求解成功率。
Feb, 2024
本文介绍了一个基于多任务转换器框架 Geoformer 的大规模统一几何问题基准测试 UniGeo,通过共同表达式生成的方式统一解决计算和证明问题,并提出了预测数学表达式的方法 MEP,从而提高了 Geoformer 的性能。
Dec, 2022
本文提出了大规模的 Geometric Question Answering 数据集 GeoQA 和一个神经几何求解器 NGS,并通过多模式信息综合分析和生成可解释性程序来解决几何问题。
May, 2021
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
在过去十年的工作中,我们构建了一个完整且兼容的平面几何形式系统,该系统在 IMO 级别的平面几何挑战和可读的 AI 自动推理之间建立了重要的桥梁。通过这个形式系统,我们成功地将现代 AI 模型与形式系统无缝整合。在这个形式框架内,AI 能够像处理其他自然语言一样,为 IMO 级别的平面几何问题提供演绎推理解决方案,并且这些证明是可读、可追溯和可验证的。我们提出了几何形式化理论(GFT)来指导几何形式系统的发展。根据 GFT,我们构建了 FormalGeo,它包含 88 个几何谓词和 196 个定理,可以表示、验证和解决 IMO 级别的几何问题。我们还使用 Python 开发了 FGPS(形式几何问题解决器),它既可作为交互式助手验证问题解决过程,又可作为自动化问题解决器利用前向搜索、后向搜索和 AI 辅助搜索等多种方法。我们标注了 FormalGeo7k 数据集,其中包含 6,981 个几何问题的完整形式语言注释(通过数据增强扩展为 186,832 个问题)。对形式系统的实施和对 FormalGeo7k 的实验验证了 GFT 的正确性和实用性。后向深度优先搜索方法只有 2.42% 的问题解决失败率,而我们可以结合深度学习技术实现更低的失败率。FGPS 和 FormalGeo7k 数据集的源代码可在此 https URL 获取。
Oct, 2023
提出了一种名为 Brain 的新方法,通过模仿人类思维过程来增强数学推理能力,在生成规划时使用额叶模型,然后利用顶叶模型生成代码并执行以获得答案,在数学推理任务中取得了最先进的性能,并发现可以明确从自然语言、代码或正式语言中提取规划。
Feb, 2024
本文研究了几何推理在问答中的应用,提出了动态空间记忆网络(DSMN)解决特定问题的新型深度神经网络架构,并在 FloorPlanQA 数据集上验证了其可行性。
May, 2018