Sep, 2024

舍赫拉莎德:利用问题链评估大型语言模型的链式思维数学推理

TL;DR本研究针对大型语言模型(LLMs)在数学推理能力评估中存在基准测试过于简单的缺陷,提出了自动化生成更具挑战性的数学推理基准的方案——Scheherazade。通过前向和后向链法,我们发现虽然前沿模型在问题链数目增加时表现显著下降,但OpenAI的o1-preview在后向链基准测试中表现反而更佳,显示出新方法的潜在影响力。