BriefGPT.xyz
Ask
alpha
关键词
scalar rewards
搜索结果 - 2
最优奖励标注:连接离线偏好与基于奖励的强化学习
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线 RL 算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。
PDF
22 days ago
标量奖励不足够:对 Silver、Singh、Precup 和 Sutton(2021)的回应
该论文提出了奖励最大化是所有智能的基础,但我们认为标量奖励无法解释生物和计算智能的某些方面,因此应采用显式的多目标奖励模型,并且即使标量奖励可以触发智能行为,也应避免使用这种方法来开发人工通用智能,因为会存在不安全或不道德的行为风险。
PDF
3 years ago
Prev
Next