通过利用人类反馈的强化学习方法,本研究探索了两种奖励机制:基于结果监督的奖励模型和基于过程监督的奖励模型,以优化语言模型的逻辑推理能力,结果显示基于过程监督的方法可以提高简单数学推理的准确性,但意外地降低了复杂任务的表现,并且认为奖励聚合函数在模型性能中扮演着关键的作用,强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。
Nov, 2023
通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力,我们提出了一种新颖的框架:反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答,并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-Eval、Factuality 和数学推理方面的实验证明了 RLRF 在超越表面层调整方面的功效和变革潜力。
Mar, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型(LMs)能力的两个基本过程,它们可以更好地与人类偏好相一致,然而当前常见的做法是简单地按顺序应用它们,而没有统一它们的优化目标,导致在适应不同目标之间存在权衡,并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解,我们在马尔可夫决策过程(MDP)框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式,我们发现 SFT 只是 RLHF 的一个特殊情况,其估计和优化能力较差。因此,SFT 高估了模型的能力,导致优化效果不佳。基于这个观点,我们引入了直观微调(IFT)将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知,同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明,IFT 在几个任务上,特别是那些需要生成、推理和遵循事实能力的任务上,表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。
May, 2024
通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。
该论文介绍了一种名为自然语言反馈微调 LLM(LaFFi)的替代方法,通过要求 LLM 直接预测从评注者那里得到的反馈,显著提高了领域内问答任务的准确性,为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。
Dec, 2023
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
深入探讨人机交互技术中基于人类反馈的强化学习(RLHF)的基本原理、应用及其研究趋势。
利用强化学习提升大型语言模型的程序合成生成能力,通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。
Jul, 2023