- 基于策略和主动学习的经济高效的代理奖励模型构建
使用成本效益的代理奖励机制和主动学习,针对强化学习与人类反馈模型,最小化专家查询成本,并有效标记更多的偏好数据进行模型训练。
- 迭代纳什策略优化:通过无悔学习使 LLMs 与一般偏好相一致
本文以游戏理论的角度,探讨了一种基于人类偏好与强化学习的算法,通过采用无懊悔学习,自我对抗的方式逼近纳什平衡策略,从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更 - 毒害对 LLM 对齐的威胁是否真实存在?可能比你想象的更严重
在这项工作中,我们研究了以直接策略优化(DPO)为基础的强化学习模型在不同情景下对攻击的脆弱性,并比较了首次提出的偏好污染攻击的有效性。我们发现,相比于基于 Proximal Policy Optimization(PPO)方法的模型,DP - 衡量 RLHF 中的代码完成功能的记忆化
通过分析训练数据记忆在强化学习过程中如何表现和传播的方式,研究发现强化学习与人类反馈对齐方式相比直接微调数据对齐方式,更少地导致训练数据的记忆,但已经在微调阶段记忆的样本在 RLHF 过程中仍然保持记忆的情况居多,这对于保护隐私可能会带来潜 - 在线强盗学习伴随离线偏好数据
采用有限臂线性赌博机模型作为在线学习的典型模型,通过建模生成数据的专家的能力,我们提出 warmPref-PS 算法,利用带有噪声偏好反馈的离线数据集实现在线学习,并在理论和实证评估中得到支持。
- Mallows-DPO: 用偏好离散来优化您的 LLM
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
- 细调文本转语音扩散模型的强化学习
利用强化学习和人类反馈进行扩散模型的文本转语音合成来生成自然且高质量的语音音频。
- 混合偏好优化:通过数据选择和更好的参考模型进行强化学习
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种 - DeAL: 大型语言模型解码时间对齐
提出了一种名为 DeAL 的框架,通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标,弥补模型训练中的残缺缺陷,并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。
- ICLRUni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈
通过 Uni-RLHF 系统,我们提供了一套从真实人类反馈到实用问题开发中全面工作流的解决方案,包括通用的多反馈注释平台、大规模众包反馈数据集和模块化离线 RLHF 基线实现。通过广泛的实验,我们的结果表明,与精心设计的手动奖励相比,收集到 - 文本到图像生成的丰富人类反馈
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
- 利用人类反馈对扩散模型进行微调,无需任何奖励模型
使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。
- 基线分析奖励模型在分布转移下准确分析基础模型的能力
基于大型语言模型的基石模型,通过人类反馈的强化学习训练来捕捉期望的行为,并通过奖励模型对语言模型进行校准。然而,很少有研究评估这些奖励模型对分布偏移的鲁棒性,本研究评估了奖励模型性能与分布偏移的关系,并展示了由于异常输入导致的校准和准确率下 - 关于使用人类反馈进行强化学习对大型语言模型的可利用性研究
通过 RankPoison 的毒化攻击生成带指定的恶意行为的污染数据集,可以对 LLMs 进行攻击,生成更长的令牌,而不损害原始安全对齐性能,这突显了 RLHF 中存在的关键安全挑战,强调了 LLMs 更强韧对齐方法的必要性。
- 通过微调在 GPT-4 中移除 RLHF 保护
精细调整大型语言模型(LLM)的 RLHF 保护可能性,使用较弱模型生成的训练数据可以有效地移除 RLHF 保护,但不会降低其在非审查输出上的有用性,表明对 LLMs 的保护需要进一步研究。
- 成对近邻策略优化:利用相对反馈进行 LLM 对齐
通过相对反馈,本文介绍了一种更简单而有效的方法,以相对反馈将大型语言模型对齐到人类的偏好。
- 高效 RLHF:降低 PPO 的内存使用
Reinforcement Learning with Human Feedback (RLHF) revolutionized language modeling by aligning models with human prefere - 用奖励重新加权、重新选择和重新训练提升原型部分网络
通过人类反馈加强训练的模型 (R3-ProtoPNet) 提高解释性,同时保持可理解性,适用于多模型集成提高预测性能。
- 用人类反馈的强化学习的社会影响视角
本文系统地研究了 RLHF 的社会影响,提出了七种 RLHF 的应用方式,分析了其对人类体验 AI 的积极影响,同时也探讨了 RLHF 可能带来的社会道德问题,以及其与人类相互作用的方面。因为 RLHF 引发的关注类似于现有 AI 技术引发