BriefGPT.xyz
Ask
alpha
关键词
potential-based reward shaping
搜索结果 - 4
基于潜力的奖励塑造对内在动机的影响
最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。在这些方法中,往往会无意中改变环境中的最优策略集,导致次优行为。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,我们证明它在比之前更一般的函数集合下保留了最优策略
→
PDF
5 months ago
朝着计算高效的逆强化学习方向进发:通过奖励塑形
逆向强化学习是具有计算挑战性的,常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担,并希望能激发未来对计算效率高的逆向强化学习的发展。
PDF
7 months ago
基于磁场的奖励设计器用于目标导向式强化学习
本文提出了一种基于磁场的奖励制形式,结合了非线性和非各向同性分布,将传统奖励制应用于目标驱动的强化学习任务,得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数,并通过学习二次潜在函数以实现最优策略不变性。实验结果表明,相对于
→
PDF
a year ago
ICLR
面向目标驱动任务的基于计划的放松奖励塑形
本文提出了一种解决状态空间高维时强化学习探索问题的 Final-Volume-Preserving Reward Shaping (FV-RS) 方法,相比于之前的 potential-based reward shaping 方法,FV-
→
PDF
3 years ago
Prev
Next