提升自动形式化的使用通过类型检查
大型语言模型 (LLMs) 具有彻底改变自动形式化的潜力。引入数学编程语言 Lean4 为评估 LLMs 的自动形式化能力提供了前所未有的机会。本文介绍了一种专为 Lean4 设计的新型评估基准,将其应用于测试包括 GPT-3.5、GPT-4 和 Gemini Pro 在内的最先进的 LLMs 的能力。我们全面的分析发现,尽管最近有所进展,这些 LLMs 在自动形式化方面仍存在局限性,尤其是在更复杂的数学领域。这些发现强调了需要进一步发展 LLMs,以充分发挥它们在科学研究和开发中的潜力。本研究不仅为当前的 LLM 能力设立了基准,还为自动形式化的未来增强奠定了基础。
Jun, 2024
本文研究了自动形式化的过程,并发现大型语言模型可用于将自然语言的数学问题翻译为 Isabelle/HOL 的形式化说明,证明了这种方法的实用性,并通过训练预先介绍的神经定理证明器使改进了 MiniF2F 定理证明基准的证明率从 29.6% 提高到 35.2%。
May, 2022
本研究介绍了一种基于 Universal Transformer 体系结构的语义解析方法,可以将基本数学证明转化为 Coq 互动定理证明器中的等效形式,以及将装饰有 Hoare 三元组的简单命令式代码翻译成 Coq 中的形式验证证明。通过人工和人工写作证明的有限领域的实验表明,这些模型对于训练期间未看到的中间长度和自然语言变化具有很好的泛化能力。
Jan, 2023
我们提出了一个新的用于评估大型语言模型自动形式化能力的基准测试 Formalization for Lean 4( ame),其中引入了一个基于过程监督的验证器(PSV)模型,通过利用 Lean 4 编译器的精确反馈来提高自动形式化,并展示了 PSV 方法在使用更详细的过程信息进行微调时,可更有效地利用数据,进一步提高了 Lean 4 的自动形式化。
Jun, 2024
使用最新系统 GPT-4,完善的自然语言规范指定先前未发布的形式系统的几项任务,如说明函数和类型定义,证明简单定理和验证用户提供的证明,并显示出域知识,发明了有用的新语法和语义,以及表现出泛化和推理能力,因此答案似乎是:是。
May, 2023
本文探讨了基于 Transformer 的语言模型在自动定理证明中的应用,提出了基于语言模型的生成能够解决自动定理证明器与人类相比的主要限制之一 —— 原始数学术语的生成问题。我们提出了一个自动证明器和证明辅助工具 GPT-f,使用 Metamath 形式语言,并分析了其性能。 GPT-f 发现了新的简短证明,并被采纳为正式数学社区所接受,这是我们所知道的第一次基于深度学习的系统为正式数学社区做出的贡献。
Sep, 2020
本研究使用大型语言模型 (Codex) 探讨将使用自然语言书写的数学(即定义,定理陈述和证明)转化为可以被程序检查正确性的形式语言的能力,并发现对于 120 个定理,Codex 可以在本科水平上以近 75%的准确率进行短数学陈述的形式化。同时在选择合适的输入和后处理策略下,Codex 可以以自然语言形式翻译本科水平的 13 个定理的证明,这些具有两到三自然段长度的证明可以在 12 次中有至少一次完成翻译,这表明大型语言模型是完全或部分自动化形式化的有前景的途径。
Nov, 2022
通过自动生成验证的形式化 Isabelle 代码,我们的方法能够自动排除具有内在一致性问题或与形式化问题陈述不一致的解,并在多个数据集和模型大小上比以前最佳方法 — 普通多数投票 — 提高了 12% 以上的准确性。
Mar, 2024
自动形式化研究级数学的一个方法是将任务分解为更容易和可接近的子任务:未链接的形式化、实体链接和类型调整。同时,本文还提出了一个用于未链接的形式化的基准数据集 arXiv2Formal,其中包含了从 arXiv.org 的论文中选取的 50 个定理的 Lean 定理证明器的形式化。欢迎社区为该数据集的未来版本做出贡献。
Oct, 2023
基于大型语言模型(LLMs)和静态分析相结合,开发了一个基于 Rust 的形式验证框架 Verus 的原型。通过将验证任务分解为多个较小的任务,迭代地查询 GPT-4,并将其输出与轻量级静态分析相结合,这个原型显著减少了编写入门级证明代码的人力工作。
Nov, 2023