May, 2024

RLSF: 强化学习来自符号反馈

TL;DR我们提出了一种名为符号反馈强化学习(RLSF)的新型训练/微调范式,旨在增强LLMs的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。