通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
Feb, 2024
通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。
通过理论和实证研究,本文探究了直接偏好优化(DPO)和邻近策略优化(PPO)方法在强化学习与大型语言模型对齐中的算法特性,并发现 PPO 在细化语言模型时表现出色,超越其它方法,并在挑战性的代码竞赛中取得了最先进的结果。
Apr, 2024
使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。
通过相对反馈,本文介绍了一种更简单而有效的方法,以相对反馈将大型语言模型对齐到人类的偏好。
Sep, 2023
通过使用奖励模型和 Proximal Policy Optimization(PPO)来操控模型生成的输出 tokenizer 长度的新任务,实验证实 PPO 在操控输出 tokenizer 长度以及训练效果方面的有效性和发展潜力。
Aug, 2023
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。
May, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
Dec, 2023