Feb, 2022

深度强化学习中的形状建议

TL;DR本文提出由观察和行动函数构成的势函数的差作为附加奖励的shaping advice来增加环境奖励的稀疏性问题的增强学习方法,分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出,使用shaping advice能够使规则更快地学习任务并获得更高的奖励。