Aug, 2024

DeepSeek-Prover-V1.5:利用证明助手反馈提升强化学习和蒙特卡洛树搜索

TL;DR本研究提出了DeepSeek-Prover-V1.5,一个用于Lean 4的开源语言模型,针对定理证明进行了优化,解决了训练和推理过程中的效率问题。创新性地采用了来自证明助手反馈的强化学习方法,并引入RMaxTS变体,以多样化的证明路径生成为目标。结果显示该模型在中学和本科水平的基准测试中取得了显著的成绩提升,展示了其在推理任务中的潜在影响。