Jun, 2023

评估和改进工具增强的计算密集型数学推理

TL;DR该研究构建了一个新的中文数据集 CARP,测试了四个有思考提示的 LLMs,发现它们容易在解决方案的早期步骤中犯错误,因此提出了一个新的基于工具接口的方法 DELI,该方法在 CARP 和其他六个数据集上的实验结果表明 DELI 大多优于竞争基线,能够进一步提高现有的 CoT 方法的性能。