Aug, 2023

多目标马尔可夫决策过程中的内在动机分层策略学习

TL;DR通过采用内在动机驱动的强化学习方法来演化出一套通用的技能集,以解决多目标马尔科夫决策过程,从而克服了在非稳态环境中无法泛化的问题。实验证明,该方法在动态机器人环境中明显优于现有的多目标强化学习方法。