Aug, 2023
多目标马尔可夫决策过程中的内在动机分层策略学习
Intrinsically Motivated Hierarchical Policy Learning in Multi-objective Markov Decision Processes
Sherif Abdelfattah, Kathryn Merrick, Jiankun Hu
TL;DR通过采用内在动机驱动的强化学习方法来演化出一套通用的技能集,以解决多目标马尔科夫决策过程,从而克服了在非稳态环境中无法泛化的问题。实验证明,该方法在动态机器人环境中明显优于现有的多目标强化学习方法。