Feb, 2025
萨托里:利用行动-思维链增强大型语言模型推理的强化学习方法
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM
Reasoning via Autoregressive Search
TL;DR本研究解决了如何提升单一大型语言模型(LLM)推理能力的问题。提出了一种新的“行动-思维链(COAT)”推理框架,并通过两阶段的训练方式,首次将强化学习引入LLM的自我改进过程。研究表明,萨托里模型在数学推理基准测试中达到最新的表现,并对域外任务展现出良好的泛化能力。