- 不需要奖励推断的人类反馈强化学习:无模型算法与实例相关分析
通过开发一种无模型的强化学习方法,本研究以人类反馈为基础,通过对动作进行对抗性竞争,提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法,证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难,并且通过规避奖励推断中的问题,如 - 超越模型崩溃:通过合成数据实现规模扩展需要加强
使用反馈增强合成数据可以防止模型崩溃,验证了常见的方法,如 RLHF。
- ACL评估大型语言模型在角色导向生成中的偏见
存在困扰个性化驱动文本生成任务的大型语言模型(LLMs)需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色,在人类调查数据中,其中一个特征会使其其他特征变得不太可能,例如支持增加军费的政 - 偏好学习算法不学习偏好排序
研究了偏好学习算法在最大似然语言模型中的应用,发现现有模型在偏好数据集上的排名准确率低于 60%,并探讨了 DPO 和 RLHF 目标优化之间的差异。
- 使用未观测到的偏好异质性进行直接偏好优化
利用 DPO 和最大期望适应机制,通过生成模型的混合来对齐不同人类偏好的生成模型,同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔,实验证实了方法在产生公正生成策略方面的有效性。
- OpenRLHF:一个易于使用、可扩展和高性能的 RLHF 框架
大型语言模型的尺寸不断增加,其卓越性能使得基于人类反馈的强化学习备受关注。本文提出了一个名为 OpenRLHF 的开源框架,通过使用 Ray、vLLM 和 DeepSpeed 重新设计对四个模型的调度以实现对超过 70B 参数的大型语言模型 - MM-PhyRLHF: 多模态物理问答的强化学习框架
我们提出了基于 LMM 的聊天机器人来回答多模态物理选择题,并通过使用 RLHF 和图像字幕技术来改善模型的性能。
- OpenBezoar: 小型、经济高效且开放式模型用于混合指导数据训练
使用基于 OpenLLaMA 3Bv2 的基本模型,我们描述了用于微调 OpenBezoar 系列模型的配方,并证明了最终检查点 “OpenBezoar-HH-RLHF-DPO” 在 3B 参数规模上胜过许多其他模型。
- ACL通过细粒度自我反思实现强化学习(RLRF):对齐和改进 LLMs
通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力,我们提出了一种新颖的框架:反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答,并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-E - 使用强化学习训练大型语言模型进行推理
从人类反馈中进行强化学习(RLHF)已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO), - 探索拒绝损失地形的梯度手环:在大型语言模型上检测越狱攻击
为了解决 Large Language Models 对恶意破坏性攻击的易受攻击性问题,本文提出了 Refusal Loss 和 Gradient Cuff 方法来检测和拒绝这些攻击,从而提高模型的安全性和性能。
- 回归基础:重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化
通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
- 用直接原则反馈抑制粉色大象
通过对现有语言模型的控制方法如 RLHF 和宪法 AI 的研究,我们发现在许多情况下,希望在推理时对语言模型进行控制,以便在不同背景下满足多样化的需求。我们通过一个 “粉象问题” 示例说明了这一点,即指导语言模型避免讨论某一特定实体(“粉象 - 对齐大型语言模型的奖励转换与合并
学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先,对于奖励模型的单调转换,是否有一种选择比其他选择更好?其次,我们经常希望将语言模型与多个属性对 - 强化学习与人类反馈调查
深入探讨人机交互技术中基于人类反馈的强化学习(RLHF)的基本原理、应用及其研究趋势。
- 分布式偏好学习:理解并考虑 RLHF 中的隐藏语境
通过分析人类的反馈学习中的偏好数据,我们发现隐藏背景信息可能导致一些反直觉的结果,从而引发强化学习算法的漏洞。为了减轻这些问题,我们引入了一种称为分布式偏好学习的方法,能够更好地考虑隐藏背景,并显著降低后续遭受攻击的概率。
- 基于上下文学习的重新思考对齐的解锁咒语
通过对基于 SFT 和 RLHF 的对齐方法的分析,我们发现通过 ICL 方法 URIAL,使得基于语言模型的对齐方法不再需要 SFT 或 RLHF 来实现高效对齐,并且实验证明 URIAL 的性能与基于 SFT 或 SFT+RLHF 的方 - 基于主动探索的样本有效强化学习来自人类反馈
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
- 统计反馈强化学习:从 AB 测试到 ANT 测试的演进
利用统计商业反馈填补强化学习框架中的人工反馈空白,提出基于 AB 测试的统计反馈强化学习(RLSF)方法,使用统计推断方法获得训练奖励网络的偏好,通过微调预训练模型在强化学习框架中实现更大的商业价值,并扩展 AB 测试为具有不同反馈时间点的 - 人工智能对齐与社会选择:基本限制与政策影响
RLHF 使用于 LLMs 中,本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战,同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。