BriefGPT.xyz
Ask
alpha
关键词
rime
搜索结果 - 1
RIME:基于噪声偏好的鲁棒化基于优先级的强化学习
通过使用人类偏好作为奖励信号,基于偏好的强化学习(PbRL)避免了对奖励设计的需求。然而,当前的 PbRL 算法过于依赖领域专家的高质量反馈,导致鲁棒性不足。本文提出 RIME,一种从嘈杂偏好中有效学习奖励的鲁棒 PbRL 算法。我们的方法
→
PDF
4 months ago
Prev
Next