Jun, 2024

精益练习册:从自然语言数学问题转化而成的大规模精益问题集

TL;DR通过提出一种新的流程,我们利用合成数据来将自然语言数学问题转化为 Lean 4 语句,并相应地进行过滤,从而为解决 LLMs 在理解复杂数学问题和证明上的性能提供有用的训练数据。最终数据集包含约 57K 个正式 - 非正式问题对以及来自数学竞赛论坛的搜索证明和 21 个新的 IMO 问题。