Nov, 2024

语言模型是隐含推理者:通过自我奖励解锁潜在推理能力

TL;DR本研究解决了大型语言模型在多步骤复杂推理任务中表现不足的问题。提出的LaTent推理优化(LaTRO)框架通过变分方法优化推理过程和推理质量评估,且无需外部反馈或奖励模型。实验证明,LaTRO能显著提高模型的推理准确率,显示了预训练语言模型可通过自我改进方式解锁和增强潜在推理能力。