基于人类反馈的强化学习中的双重主动学习
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如Python编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的KL散度平方根的近似线性关系。除此之外,对校准、竞争目标和OOD检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
基于大型语言模型对齐的一种新方法SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点,并通过替换PPO算法和引入KL divergence先验,提出了一种新的训练方法。实验结果表明,SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023
用来自人类反馈的强化学习技术已经成为一个强大的工具,使得大型语言模型在复杂环境中更容易引导,更具能力。然而,由于奖励模型、策略模型和评估模型之间的不一致性,存在目标不匹配的问题。本文探讨了这个问题的原因,并回顾了相关的模型学习和强化学习文献。同时,讨论了激励解匹配之后的解决方案,以促进进一步的研究,从而使未来的语言模型更加准确地遵循用户的指令,提供更安全和有用的服务。
Oct, 2023
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对RLHF的挑战进行了描述,为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
May, 2024
本研究聚焦于现有离线人类反馈强化学习(RLHF)在捕捉反馈偏好方面存在的不足,尤其是忽视了偏好强度。我们提出了一种称为奖励差异优化(RDO)的新方法,通过引入奖励差异系数来调整样本对的权重,进而提高LLMs与人类意图的对齐效果。实验结果表明,该方法在自动评测和人工评估中均表现出良好效果,展示了其在提高模型对人类价值观的适应性方面的潜力。
Aug, 2024
本研究解决了现有基于人类反馈的强化学习在长序列中的信用分配问题,导致学习效率低下。提出的MA-RLHF框架引入宏操作,显著减少了操作与奖励之间的时间距离,从而提升了学习效率和政策梯度的稳定性。本方法在文本摘要、对话生成等任务中表现优异,相较传统方法性能提升达30%,训练速度提高至1.7倍甚至2倍。
Oct, 2024