Feb, 2024

GLoRe:基于全局与局部细化的 LLM 推理的何时、何地和如何改进

TL;DR我们提出了基于步骤的 Outcome-based Reward Models (SORMs) 来提高语言模型的推理能力,通过合并全局和局部细化模型使模型在 GSM8K 数据集上的准确率从 53% 提高到 65%。