图形形式化增强的多模态几何问题求解器

Sep, 2024

图形形式化增强的多模态几何问题求解器

Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver

Zeren Zhang, Jo-Ku Cheng, Jingyang Deng, Lu Tian, Jinwen Ma...

TL;DR本研究针对人工智能在几何问题求解中面临的数学推理挑战，提出了一种新的框架DFE-GPS，通过结合视觉特征、几何形式语言和自然语言表示来改善现有模型在理解几何图形上的能力。我们的主要发现是，使用新开发的合成数据集SynthGeo228K后，模型在几何问题解决方面表现显著提升，扩展了其在开放式任务中的应用。

Abstract

Mathematical reasoning remains an ongoing challenge for AI models, especially for Geometry problems that require both linguistic and visual signals. As the vision encoders of most MLLMs are trained on natural sce

发现论文，激发创造

Inter-GPS: 可解释的几何问题求解与形式化语言及符号推理

构建了一个大规模的几何问题的数据集，并提出了一种基于形式语言和符号推理的新的解决方案，称为可解释几何问题求解器(Inter-GPS)，其能够显著提高当前方法的解决几何问题的效果。

May, 2021

多模态神经几何求解器：从图解析文本子句

本文提出了一种基于神经网络的解题方案PGPSNet来解决几何问题求解中的模态融合问题；通过把图解转化成文本描述来更有效地描述数据特征，并结合结构和语义训练、数据增强和自限制解码等来增强几何理解和推理。此外，还构建了一个新的大规模、细粒度的PGPS9K数据库来帮助该领域的研究。我们在PGPS9K和Geometry3K数据集上的实验验证了该方法的优越性。

Feb, 2023

一种解决几何问题的符号字符感知模型

通过开发一个符号字符感知模型，该研究旨在完全探索符号字符在文本和图解理解中的角色，并在多模态推理框架下优化模型。该模型在解决几何问题的通用编码器-解码器流水线中得到整合，经过大量实验，在两个基准数据集（GeoQA和Geometry3K）上展现了卓越性能，极大提高了问题解答的准确率和步骤效率。

Aug, 2023

FormalGeo: 让几何自动推理接近人类水平的IMO级别的第一步

在过去十年的工作中，我们构建了一个完整且兼容的平面几何形式系统，该系统在IMO级别的平面几何挑战和可读的AI自动推理之间建立了重要的桥梁。通过这个形式系统，我们成功地将现代AI模型与形式系统无缝整合。在这个形式框架内，AI能够像处理其他自然语言一样，为IMO级别的平面几何问题提供演绎推理解决方案，并且这些证明是可读、可追溯和可验证的。我们提出了几何形式化理论（GFT）来指导几何形式系统的发展。根据GFT，我们构建了FormalGeo，它包含88个几何谓词和196个定理，可以表示、验证和解决IMO级别的几何问题。我们还使用Python开发了FGPS（形式几何问题解决器），它既可作为交互式助手验证问题解决过程，又可作为自动化问题解决器利用前向搜索、后向搜索和AI辅助搜索等多种方法。我们标注了FormalGeo7k数据集，其中包含6,981个几何问题的完整形式语言注释（通过数据增强扩展为186,832个问题）。对形式系统的实施和对FormalGeo7k的实验验证了GFT的正确性和实用性。后向深度优先搜索方法只有2.42%的问题解决失败率，而我们可以结合深度学习技术实现更低的失败率。FGPS和FormalGeo7k数据集的源代码可在此https URL获取。

Oct, 2023

G-LLaVA：多模态大型语言模型解决几何问题

利用图像输入，通过理解几何问题，使大型语言模型能够解决几何问题，构建了一个丰富的多模态几何数据集Geo170K，发展了G-LLaVA，在MathVista基准测试上以仅有7B参数显著优于GPT-4-V。

Dec, 2023

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

MathVerse: 您的多模式LLM真正看到视觉数学问题中的图表吗？

通过引入MathVerse基准测试，我们深入评估多模态大型语言模型（MLLMs）在解决视觉数学问题方面的能力，并提出了链式思维（CoT）评估策略以评估输出答案的细微推理步骤，以期为MLLMs的未来发展提供独特的见解。

Mar, 2024

融合、推理和验证：几何问题的图形解决方案与解析子句

我们提出了一个名为PGPSNet-v2的神经符号模型，通过三个关键步骤（模态融合，推理过程和知识验证）来解决平面几何问题，该模型在几何问题解决性能方面优于现有的符号和神经求解器，同时具有较好的可解释性和可靠性。

Jul, 2024

鹰：通过大型语言模型赋能的视觉指导调优提升几何推理

该研究针对现有多模态大型语言模型在几何问题解决中的视觉感知不足进行探讨，发现其存在显著的几何感知不准确和幻觉问题。提出EAGLE框架，通过两阶段的视觉增强提升几何推理能力，在多个基准测试中表现优异，超越了现有先进模型，展示了其在几何推理领域的潜在影响。

Aug, 2024

图示形式化增强的多模态几何问题求解器

该研究针对AI模型在处理几何问题时面临的语义和视觉信息不足的挑战，提出了图示形式化增强的几何问题求解框架（DFE-GPS）。通过引入新的合成数据方法和大规模几何数据集SynthGeo228K，研究显著提升了多模态语言模型对几何图形的理解能力，拓展了其在开放式任务中的应用潜力。

Sep, 2024