Sep, 2024

BAMDP塑形:内在动机与奖励塑形的统一理论框架

TL;DR本研究解决了内在动机和奖励塑形在强化学习中的设计挑战,提出将其视为贝叶斯自适应马尔可夫决策过程(BAMDP)中的奖励塑形。研究表明,当伪奖励符合BAMDP潜力基础塑形函数时,可以保持强化学习算法的最优或近似最优行为,从而为奖励设计提供了新的指导。