EMNLPOct, 2023

TRIGO:用于生成语言模型的形式化数学证明简化的基准测试

TL;DR我们提出了 TRIGO,一个自动定理证明基准测试,要求模型能够逐步证明简化三角表达式,并评估生成型语言模型在公式推理、数字项操作、分组和因式分解方面的推理能力。我们从互联网收集三角表达式及其简化形式,并用 ``Lean'' 形式语言系统注释简化过程,然后自动从标注样本中生成额外的示例来扩充数据集。通过基于 Lean-Gym 的自动生成器创建不同难度和分布的数据集来全面分析模型的泛化能力。我们的广泛实验显示,TRIGO 对于包括在大量开源形式定理证明语言数据上预训练的 GPT-4 在内的先进生成型语言模型提出了新的挑战,并为研究生成型语言模型在形式和数学推理上的能力提供了新工具。