采用奖励集成方法,我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果,通过使用多个大型语言模型的奖励模型集成,提高了 RLHF 输出的对齐性能。
Jan, 2024
使用约束强化学习方法解决复合奖励模型中过度优化问题,并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。
Oct, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024
使用集合基的保守优化目标,能够在强化学习中有效抑制频繁优化,提高性能。
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
Feb, 2024
本文提出了一种新的方法,将预训练的语言模型同时用作策略、奖励函数和转移函数,从而实现了奖励学习和语言模型微调的联合和直接处理,并通过处理认知不确定性来实现高效探索。
May, 2023
奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词,研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。
Dec, 2023
通过离线强化学习从人类反馈中对齐语言模型,采用最大似然估计、加权回归奖励和决策变换方法,实现了比在线 RL 方法更稳定的模型训练和更高的性能。
Aug, 2023
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023