基线分析奖励模型在分布转移下准确分析基础模型的能力
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
用来自人类反馈的强化学习技术已经成为一个强大的工具,使得大型语言模型在复杂环境中更容易引导,更具能力。然而,由于奖励模型、策略模型和评估模型之间的不一致性,存在目标不匹配的问题。本文探讨了这个问题的原因,并回顾了相关的模型学习和强化学习文献。同时,讨论了激励解匹配之后的解决方案,以促进进一步的研究,从而使未来的语言模型更加准确地遵循用户的指令,提供更安全和有用的服务。
Oct, 2023
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新的方法来估计偏好差异,而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明,将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性,还突出了它在实际应用中的有效性。
Apr, 2024
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024
利用强化学习从人类反馈中对大型语言模型(LLMs)进行微调,该方法已在一些最广泛使用的人工智能模型中得到应用,如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段(即受监督的微调(SFT)、奖励建模和强化学习从人类反馈)对于两个关键属性的影响:越界分布的泛化和输出的多样性。我们发现,相对于受监督的微调,强化学习从人类反馈更好地泛化到新的输入,尤其是在训练和测试之间的分布差异越大时。然而,相比于受监督的微调,强化学习从人类反馈显著降低了输出的多样性,这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导,并表明有必要改进泛化和多样性之间的权衡。
Oct, 2023
通过元学习方法,优化一个通用奖励模型来解决离群分布概率学习问题,并在两个文本生成任务中的 20 个保留领域的实验中,通过各种评估指标超过一系列强基准。
Feb, 2024
从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展,通过使用注意力权重重新分配奖励以高亮最重要的标记,它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。
Feb, 2024
为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过度优化或黑客攻击的影响,即所选择的回复之所以具有高奖励是因为奖励模型中存在错误,而不是真正的偏好。通过训练贝叶斯奖励模型,可以缓解这些问题,该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此,我们使用 Laplace-LoRA(Yang 等,2024 年)训练了贝叶斯奖励模型,并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。
Feb, 2024
本文通过引入一种名为对比奖励的奖励惩罚项,改进了奖励模型的效果,在强化学习中对奖励的不确定性进行了压制,提高了鲁棒性,鼓励基准改进,根据任务难度进行校准,并减少了 PPO 中的方差。经实证表明,对比奖励可以极大提高从人类反馈中强化学习的效果,无论是通过 GPTs 还是人类评价,我们的方法始终优于强基准。
Mar, 2024