BriefGPT.xyz
Ask
alpha
关键词
dromedary-2
搜索结果 - 1
SALMON:自我对齐与遵循原则的奖励模型
该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各
→
PDF
9 months ago
Prev
Next