Sep, 2023

数学问题解决中的思维链设计

TL;DR针对数学问题求解中的推理,我们对 Chain-of-Thought (CoT) 设计方法进行了全面研究,将常规自然语言 CoT 与各种程序 CoT(包括自说明程序、评论说明程序和非说明程序)进行了比较;此外,我们还研究了编程语言对程序 CoT 的影响,比较了 Python 和 Wolfram Language。通过在 GSM8K、MATHQA 和 SVAMP 上进行的大量实验,我们发现程序 CoT 在数学问题求解中通常具有更好的效果,其中自说明程序以 30B 个参数组合表现最佳,明显超过了 GPT-3.5-turbo。实验结果显示,自说明程序提供了更大的多样性,因此通常可以实现更高的性能。我们还发现,相比于 Wolfram,Python 是程序 CoT 的更好选择的编程语言。实验结果为今后在考虑编程语言和编码风格方面的 CoT 设计提供了有价值的指导。我们的数据集和代码已公开提供。