BriefGPT.xyz
Ask
alpha
关键词
learning from human preferences
搜索结果 - 2
理解从人类偏好中学习的一般理论范式
通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似
→
PDF
9 months ago
使用离线强化学习与人类反馈对齐语言模型
通过离线强化学习从人类反馈中对齐语言模型,采用最大似然估计、加权回归奖励和决策变换方法,实现了比在线 RL 方法更稳定的模型训练和更高的性能。
PDF
10 months ago
Prev
Next