Jan, 2024

ReFT: 强化微调推理

TL;DR通过增强学习和在线增强学习的组合,提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力,以数学问题求解为例,通过学习多个标注的推理路径,显著提高了性能。