BriefGPT.xyz
Ask
alpha
关键词
chain-of-thought annotations
搜索结果 - 1
ReFT: 强化微调推理
通过增强学习和在线增强学习的组合,提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力,以数学问题求解为例,通过学习多个标注的推理路径,显著提高了性能。
PDF
6 months ago
Prev
Next