Aug, 2023

强化学习中的多目标策略优化政策组合

TL;DR通过利用相关的现有教师策略,我们使强化学习代理能够学习成功的行为策略,并在多目标策略优化设置中将教师策略引入作为目标之一,展示了教师策略能够加速学习的方式,尤其是在缺乏塑形奖励之情况下。