一种新的自动形式化方法
本文研究了自动形式化的过程,并发现大型语言模型可用于将自然语言的数学问题翻译为 Isabelle/HOL 的形式化说明,证明了这种方法的实用性,并通过训练预先介绍的神经定理证明器使改进了 MiniF2F 定理证明基准的证明率从 29.6% 提高到 35.2%。
May, 2022
本研究介绍了一种基于 Universal Transformer 体系结构的语义解析方法,可以将基本数学证明转化为 Coq 互动定理证明器中的等效形式,以及将装饰有 Hoare 三元组的简单命令式代码翻译成 Coq 中的形式验证证明。通过人工和人工写作证明的有限领域的实验表明,这些模型对于训练期间未看到的中间长度和自然语言变化具有很好的泛化能力。
Jan, 2023
本文介绍了一种自动形式化欧几里得几何的神经符号框架,该框架结合了领域知识、SMT 求解器和大型语言模型,这一框架的挑战之一在于通过定理证明器自动填充图形信息以简化模型,实验结果展示了自动形式化几何问题时最新的语言模型的能力和局限性。
May, 2024
通过使用语言模型将正式数学陈述翻译为相应的非正式陈述,我们创建了一个大型、灵活、多语言和多领域的非正式 - 正式对数据集 MMA,实验证明在 MMA 上对语言模型进行微调可以产生 16-18%的陈述,仅需进行最小的修正即可达到 miniF2F 和 ProofNet 标准,这也证明了在单语言任务中部署多语言正式数据进行微调可以得到更有能力的自动形式化模型。
Nov, 2023
本文旨在通过实验探讨利用神经网络自动将 LaTeX 格式的非正式数学语句翻译成 Mizar 语言中的正式数学陈述。研究通过监督和非监督方法训练了三个基于神经网络的机器翻译模型,并开发了自定义的类型详细说明机制来优化结果。
Dec, 2019
本研究使用大型语言模型 (Codex) 探讨将使用自然语言书写的数学(即定义,定理陈述和证明)转化为可以被程序检查正确性的形式语言的能力,并发现对于 120 个定理,Codex 可以在本科水平上以近 75%的准确率进行短数学陈述的形式化。同时在选择合适的输入和后处理策略下,Codex 可以以自然语言形式翻译本科水平的 13 个定理的证明,这些具有两到三自然段长度的证明可以在 12 次中有至少一次完成翻译,这表明大型语言模型是完全或部分自动化形式化的有前景的途径。
Nov, 2022
我们提出了一个新的用于评估大型语言模型自动形式化能力的基准测试 Formalization for Lean 4( ame),其中引入了一个基于过程监督的验证器(PSV)模型,通过利用 Lean 4 编译器的精确反馈来提高自动形式化,并展示了 PSV 方法在使用更详细的过程信息进行微调时,可更有效地利用数据,进一步提高了 Lean 4 的自动形式化。
Jun, 2024
ProofNet 是一个面向本科级数学自动形式化和形式证明的基准,包括 371 个例子,目的在于推动自动形式化和自动定理证明的进步。 通过上下文学习实现了对陈述自动形式化的基线结果。同时,引入了两种新的陈述自动形式化方法:提示检索和精炼反向翻译。该基准主要涵盖了实数和复数分析,线性代数,抽象代数和拓扑等主题。
Feb, 2023
通过与类型检查筛选相结合,我们使用自一致性方法对基于 GPT-4o 模型的 GPT-4o 型进行解码,使得自然语言能够更准确地转化为形式语言,并在 Lean 4 的 ProofNet 中实现 53.2% 的新的最优效果。
Jun, 2024
该论文表明,通过使用现有的证明助理,可以以与建立证明助理自身的信任和可审计性原则相一致的方式,构建对自然语言表达的规范的支持。我们在 Lean 证明助理内实现了一种方式,以可扩展的正式英语子集提供规范,并自动将其翻译成正式的命题。我们的方法是可扩展的(对语法结构没有永久限制),模块化的(允许在库中分发有关新词的信息),并且生成解释了每个词的解释方式以及如何使用句子结构来计算含义的证明证书。我们将原型应用于从一本流行教材中翻译各种正式规范的英文描述;在仅需进行小幅修改的情况下,借助一个适度的词汇表,所有规范都能被正确翻译。
Oct, 2023