自动形式化欧几里德几何

ICMLMay, 2024

Autoformalizing Euclidean Geometry

Logan Murphy, Kaiyu Yang, Jialiang Sun, Zhaoyu Li, Anima Anandkumar...

TL;DR本文介绍了一种自动形式化欧几里得几何的神经符号框架，该框架结合了领域知识、SMT 求解器和大型语言模型，这一框架的挑战之一在于通过定理证明器自动填充图形信息以简化模型，实验结果展示了自动形式化几何问题时最新的语言模型的能力和局限性。

Abstract

autoformalization involves automatically translating informal math into formal theorems and proofs that are machine-verifiable. euclidean geometry provides an interesting and controllable domain for studying

autoformalization euclidean geometry neuro-symbolic framework theorem provers llms

发现论文，激发创造

基于自动正式化的数学和代码正确性研究：基础证明实验

本研究介绍了一种基于 Universal Transformer 体系结构的语义解析方法，可以将基本数学证明转化为 Coq 互动定理证明器中的等效形式，以及将装饰有 Hoare 三元组的简单命令式代码翻译成 Coq 中的形式验证证明。通过人工和人工写作证明的有限领域的实验表明，这些模型对于训练期间未看到的中间长度和自然语言变化具有很好的泛化能力。

Jan, 2023

利用大型语言模型进行自动形式化

本文研究了自动形式化的过程，并发现大型语言模型可用于将自然语言的数学问题翻译为 Isabelle/HOL 的形式化说明，证明了这种方法的实用性，并通过训练预先介绍的神经定理证明器使改进了 MiniF2F 定理证明基准的证明率从 29.6% 提高到 35.2%。

May, 2022

一种新的自动形式化方法

自动形式化研究级数学的一个方法是将任务分解为更容易和可接近的子任务：未链接的形式化、实体链接和类型调整。同时，本文还提出了一个用于未链接的形式化的基准数据集 arXiv2Formal，其中包含了从 arXiv.org 的论文中选取的 50 个定理的 Lean 定理证明器的形式化。欢迎社区为该数据集的未来版本做出贡献。

Oct, 2023

Lean4 中自动形式化的评估基准

大型语言模型 (LLMs) 具有彻底改变自动形式化的潜力。引入数学编程语言 Lean4 为评估 LLMs 的自动形式化能力提供了前所未有的机会。本文介绍了一种专为 Lean4 设计的新型评估基准，将其应用于测试包括 GPT-3.5、GPT-4 和 Gemini Pro 在内的最先进的 LLMs 的能力。我们全面的分析发现，尽管最近有所进展，这些 LLMs 在自动形式化方面仍存在局限性，尤其是在更复杂的数学领域。这些发现强调了需要进一步发展 LLMs，以充分发挥它们在科学研究和开发中的潜力。本研究不仅为当前的 LLM 能力设立了基准，还为自动形式化的未来增强奠定了基础。

Jun, 2024

FormalGeo: 让几何自动推理接近人类水平的 IMO 级别的第一步

在过去十年的工作中，我们构建了一个完整且兼容的平面几何形式系统，该系统在 IMO 级别的平面几何挑战和可读的 AI 自动推理之间建立了重要的桥梁。通过这个形式系统，我们成功地将现代 AI 模型与形式系统无缝整合。在这个形式框架内，AI 能够像处理其他自然语言一样，为 IMO 级别的平面几何问题提供演绎推理解决方案，并且这些证明是可读、可追溯和可验证的。我们提出了几何形式化理论（GFT）来指导几何形式系统的发展。根据 GFT，我们构建了 FormalGeo，它包含 88 个几何谓词和 196 个定理，可以表示、验证和解决 IMO 级别的几何问题。我们还使用 Python 开发了 FGPS（形式几何问题解决器），它既可作为交互式助手验证问题解决过程，又可作为自动化问题解决器利用前向搜索、后向搜索和 AI 辅助搜索等多种方法。我们标注了 FormalGeo7k 数据集，其中包含 6,981 个几何问题的完整形式语言注释（通过数据增强扩展为 186,832 个问题）。对形式系统的实施和对 FormalGeo7k 的实验验证了 GFT 的正确性和实用性。后向深度优先搜索方法只有 2.42% 的问题解决失败率，而我们可以结合深度学习技术实现更低的失败率。FGPS 和 FormalGeo7k 数据集的源代码可在此 https URL 获取。

Oct, 2023

Lean 4 中的过程驱动自动格式化

我们提出了一个新的用于评估大型语言模型自动形式化能力的基准测试 Formalization for Lean 4（ ame），其中引入了一个基于过程监督的验证器（PSV）模型，通过利用 Lean 4 编译器的精确反馈来提高自动形式化，并展示了 PSV 方法在使用更详细的过程信息进行微调时，可更有效地利用数据，进一步提高了 Lean 4 的自动形式化。

Jun, 2024

多语种数学自动形式化

通过使用语言模型将正式数学陈述翻译为相应的非正式陈述，我们创建了一个大型、灵活、多语言和多领域的非正式 - 正式对数据集 MMA，实验证明在 MMA 上对语言模型进行微调可以产生 16-18％的陈述，仅需进行最小的修正即可达到 miniF2F 和 ProofNet 标准，这也证明了在单语言任务中部署多语言正式数据进行微调可以得到更有能力的自动形式化模型。

Nov, 2023

不要相信：验证 - 用自动形式化证明 LLM 定量推理的基础

通过自动生成验证的形式化 Isabelle 代码，我们的方法能够自动排除具有内在一致性问题或与形式化问题陈述不一致的解，并在多个数据集和模型大小上比以前最佳方法 — 普通多数投票 — 提高了 12% 以上的准确性。

Mar, 2024

探索神经机器翻译在 Mizar 数学自动形式化中的应用

本文旨在通过实验探讨利用神经网络自动将 LaTeX 格式的非正式数学语句翻译成 Mizar 语言中的正式数学陈述。研究通过监督和非监督方法训练了三个基于神经网络的机器翻译模型，并开发了自定义的类型详细说明机制来优化结果。

Dec, 2019

智能辅导系统中几何问题的自动合成

该论文介绍了一个名为 GeoTutor 的智能辅导系统，它能自动合成证明问题及其解决方案，以及针对学生在欧几里得几何方面的缺陷提供个性化练习问题。

Oct, 2015