Sep, 2024
关键规划步骤学习提升大语言模型在推理任务中的泛化能力
CPL: Critical Planning Step Learning Boosts LLM Generalization in
Reasoning Tasks
TL;DR本研究解决了现有方法未能有效提高大语言模型在广泛推理任务中的泛化能力的问题。通过引入关键规划步骤学习(CPL)和逐步优势偏好优化(Step-APO),利用蒙特卡罗树搜索(MCTS)探索多步骤推理任务中的规划步骤,从而改善了模型的推理能力。实验结果表明,该方法在多个基准测试上显著提升了性能,展示了其在推理任务中的潜在影响。