多语种数学自动形式化
本文研究了自动形式化的过程,并发现大型语言模型可用于将自然语言的数学问题翻译为 Isabelle/HOL 的形式化说明,证明了这种方法的实用性,并通过训练预先介绍的神经定理证明器使改进了 MiniF2F 定理证明基准的证明率从 29.6% 提高到 35.2%。
May, 2022
本文旨在通过实验探讨利用神经网络自动将 LaTeX 格式的非正式数学语句翻译成 Mizar 语言中的正式数学陈述。研究通过监督和非监督方法训练了三个基于神经网络的机器翻译模型,并开发了自定义的类型详细说明机制来优化结果。
Dec, 2019
自动形式化研究级数学的一个方法是将任务分解为更容易和可接近的子任务:未链接的形式化、实体链接和类型调整。同时,本文还提出了一个用于未链接的形式化的基准数据集 arXiv2Formal,其中包含了从 arXiv.org 的论文中选取的 50 个定理的 Lean 定理证明器的形式化。欢迎社区为该数据集的未来版本做出贡献。
Oct, 2023
该研究采用深度神经网络进行数学形式化的自动化,使用机器翻译模型将非正式的 LaTeX 写的 Mizar 文本转化成正式的 Mizar 语言,并进行了多次实验以测试其可行性。结果表明,通过人工神经网络进行数学形式化是一种有前途的方法。
May, 2018
本研究介绍了一种基于 Universal Transformer 体系结构的语义解析方法,可以将基本数学证明转化为 Coq 互动定理证明器中的等效形式,以及将装饰有 Hoare 三元组的简单命令式代码翻译成 Coq 中的形式验证证明。通过人工和人工写作证明的有限领域的实验表明,这些模型对于训练期间未看到的中间长度和自然语言变化具有很好的泛化能力。
Jan, 2023
本文介绍了一种自动形式化欧几里得几何的神经符号框架,该框架结合了领域知识、SMT 求解器和大型语言模型,这一框架的挑战之一在于通过定理证明器自动填充图形信息以简化模型,实验结果展示了自动形式化几何问题时最新的语言模型的能力和局限性。
May, 2024
我们提出了一个新的用于评估大型语言模型自动形式化能力的基准测试 Formalization for Lean 4( ame),其中引入了一个基于过程监督的验证器(PSV)模型,通过利用 Lean 4 编译器的精确反馈来提高自动形式化,并展示了 PSV 方法在使用更详细的过程信息进行微调时,可更有效地利用数据,进一步提高了 Lean 4 的自动形式化。
Jun, 2024
通过自动生成验证的形式化 Isabelle 代码,我们的方法能够自动排除具有内在一致性问题或与形式化问题陈述不一致的解,并在多个数据集和模型大小上比以前最佳方法 — 普通多数投票 — 提高了 12% 以上的准确性。
Mar, 2024
本研究使用大型语言模型 (Codex) 探讨将使用自然语言书写的数学(即定义,定理陈述和证明)转化为可以被程序检查正确性的形式语言的能力,并发现对于 120 个定理,Codex 可以在本科水平上以近 75%的准确率进行短数学陈述的形式化。同时在选择合适的输入和后处理策略下,Codex 可以以自然语言形式翻译本科水平的 13 个定理的证明,这些具有两到三自然段长度的证明可以在 12 次中有至少一次完成翻译,这表明大型语言模型是完全或部分自动化形式化的有前景的途径。
Nov, 2022
研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时,如何解决形式化信息缺失的问题,通过使用印地语作为示例数据,在形式化受控环境中训练双语模型,并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型,通过比较预测的被标记词与期望输出的实际词的准确度(ACC)来评估正式性准确性。这项研究展示了一种灵活的翻译策略,考虑了目标语言中形式化的细微差别,迎合了多样化的语言交流需求和场景。
Nov, 2023