BriefGPT.xyz
大模型
Ask
alpha
关键词
rlsf-based fine-tuning
搜索结果 - 1
RLSF: 强化学习来自符号反馈
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练 / 微调范式,旨在增强 LLMs 的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
PDF
a month ago
Prev
Next