GLoRe：基于全局与局部细化的 LLM 推理的何时、何地和如何改进

Feb, 2024

GLoRe：基于全局与局部细化的 LLM 推理的何时、何地和如何改进

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi...

TL;DR我们提出了基于步骤的 Outcome-based Reward Models (SORMs) 来提高语言模型的推理能力，通过合并全局和局部细化模型使模型在 GSM8K 数据集上的准确率从 53% 提高到 65%。

Abstract

state-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify \textit{when and where to refine} without access to external feedback. Outcome-ba

state-of-the-art language models outcome-based reward models process based reward models stepwise orms global and local refinements

发现论文，激发创造

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

逐步奖励：作为推理导航器的步骤级奖励模型

研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果，提出了一种基于奖励模型的启发式贪婪搜索算法，与其他方法相比在数学推理和代码生成任务中表现出更好的结果，并展示了在推理任务中基于奖励模型的方法的鲁棒性。

Oct, 2023

LLM 细化之艺：问、细化与信任

近年来，大型语言模型展现出了令人瞩目的生成能力，但它们能判断自己生成的质量吗？我们提出了一种名为 ART 的推理与改进目标，通过提出必要的问题来决定何时应该改进模型的输出，并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学 word 问题和问答任务上，ART 相较于自我改进的基线表现提高了 5 个百分点，并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处，作为经济高效的替代方法。

Nov, 2023

REFINER: 在中间表示上进行推理反馈

以 REINFER 为框架，使用自动化反馈的机器模型来有针对性地改善语言模型在推理任务中的表现。实验证明，在三个不同的推理任务中，REFINER 表现明显优于同等规模的基线语言模型。

Apr, 2023

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

具有合理性的语言模型

在大型语言模型中添加一个反思层次，通过构建信念图和使用形式化的约束推理器，从而减少其答案与其他 “信念” 的依赖关系和不一致性，REFLEX 方法可以改善一定程度的一致性，同时不降低模型的答案准确性。

May, 2023

运用知识图谱推理赋能语言模型进行问答

该研究提出了一个基于知识推理的预训练语言模型（OREO-LM），它采用可微分的知识图谱推理模块，使语言模型与知识图谱相互协作，以更好地回答开放域问题，并在 RoBERTa 和 T5 上实现了最先进的效果。

Nov, 2022