逐步强化

Nov, 2023

Let's Reinforce Step by Step

Sarah Pan, Vladislav Lialin, Sherin Muckatira, Anna Rumshisky

TL;DR通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Abstract

While recent advances have boosted lm proficiency in linguistic benchmarks, LMs consistently struggle to reason correctly on complex tasks like mathematics. We turn to reinforcement learning from human feedback (

lm proficiency reinforcement learning from human feedback outcome-supervised reward models process-supervised reward models fine-grained reward modeling

发现论文，激发创造

逐步奖励：作为推理导航器的步骤级奖励模型

研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果，提出了一种基于奖励模型的启发式贪婪搜索算法，与其他方法相比在数学推理和代码生成任务中表现出更好的结果，并展示了在推理任务中基于奖励模型的方法的鲁棒性。

Oct, 2023

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

GLoRe：基于全局与局部细化的 LLM 推理的何时、何地和如何改进

我们提出了基于步骤的 Outcome-based Reward Models (SORMs) 来提高语言模型的推理能力，通过合并全局和局部细化模型使模型在 GSM8K 数据集上的准确率从 53% 提高到 65%。

Feb, 2024

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练 / 微调范式，旨在增强 LLMs 的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

数据有效的强化学习高阶函数的典型奖励网络

利用 Proto-RM 框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

LLM 时代的强化学习：什么是必要的？什么是需要的？强化学习在 RLHF, Prompting 和更多方面的视角

最近大型语言模型（LLMs）的最新进展，引起了广泛关注，并导致了成功产品，如 ChatGPT 和 GPT-4。它们在遵循指导和提供无害、有益和诚实（3H）回答方面的熟练程度，主要归功于人类反馈强化学习（RLHF）技术。本文旨在将传统 RL 研究与 LLM 研究中使用的 RL 技术联系起来。通过讨论 RL 的优点，探索为 RLHF 研究带来或贡献的潜在未来方向。

Oct, 2023