BriefGPT.xyz
Ask
alpha
关键词
pbrl
搜索结果 - 2
通过对齐的经验估计实现高效的基于偏好的强化学习
PbRL 方法 SEER 通过整合标签平滑和策略规则化技术,提高了反馈效率,取得了显著的性能优势。
PDF
a month ago
RIME:基于噪声偏好的鲁棒化基于优先级的强化学习
通过使用人类偏好作为奖励信号,基于偏好的强化学习(PbRL)避免了对奖励设计的需求。然而,当前的 PbRL 算法过于依赖领域专家的高质量反馈,导致鲁棒性不足。本文提出 RIME,一种从嘈杂偏好中有效学习奖励的鲁棒 PbRL 算法。我们的方法
→
PDF
4 months ago
Prev
Next