Jul, 2024

Lean-STaR:学习交替思考与证明

TL;DR传统基于语言模型的定理证明假设在足够数量的形式证明数据上训练后,模型将学会证明定理。研究观察到非形式证明中蕴含的丰富信息对于学习证明定理是有用的。因此,使用回顾性的真实策略生成合成思考来训练语言模型,Lean-STaR框架通过在每个证明步骤的预测策略之前直接生成思考来提升模型的证明定理能力,并通过专家迭代进一步微调模型。在Lean定理证明环境中,Lean-STaR在miniF2F-test基准上取得了最先进的结果,显著优于基准模型($43.4% ightarrow 46.3%,$ Pass@64),同时对增强思考对定理证明过程的各个方面的影响进行了分析,提供了洞察力。