BriefGPT.xyz
Ask
alpha
关键词
reward-shaping methods
搜索结果 - 1
基于潜力的奖励塑造对内在动机的影响
最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。在这些方法中,往往会无意中改变环境中的最优策略集,导致次优行为。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,我们证明它在比之前更一般的函数集合下保留了最优策略
→
PDF
5 months ago
Prev
Next