Proxy-RLHF: 大规模语言模型中分离生成与对齐的代理模型
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
在线学习对于语言模型的对齐与优化是至关重要的,本文提出了一种基于双层优化的在线对齐方法,并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果,以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法,在开源数据集上显著提高了对齐性能,并具有极小的计算开销。
Jun, 2024
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF),通过多目标强化学习问题的建模,可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解,并在分布式环境中独立有效地进行训练,最后通过参数合并有效地实现多维度的个性化对齐。
Oct, 2023
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
ChatGLM-RLHF 是一种从人类反馈中进行强化学习的系统,通过收集人类偏好数据、训练奖励模型和优化策略等方式,解决了与人类偏好的对齐问题,在大规模训练中稳定奖励方差、实现模型并行性并设计正则化约束以避免灾难性遗忘,通过实验证明在中文对齐任务中与 ChatGLM-SFT 相比,ChatGLM-RLHF 取得了平均 15% 的更多胜利,本研究实践了利用人类偏好与语言模型对齐的方法,并提供了 RLHF 实现中的挑战与解决方案的见解。
Apr, 2024
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
大型语言模型对人工通用智能发展提出了一个使命,与人类对齐是其最重要的挑战,强化学习与人类反馈是支撑此追求的关键技术,并探讨了在 PPO 算法中影响策略代理训练的部件,并提出了 PPO-max 增强版本以提高策略模型的训练稳定性,总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。
Jul, 2023