May, 2024

RLSF: 强化学习来自符号反馈

TL;DR我们提出了一种名为符号反馈强化学习(RLSF)的新型训练 / 微调范式,旨在增强 LLMs 的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。