Feb, 2020

通用隐含参数MDPs:在少数试验中可转移的基于模型的强化学习

TL;DR该研究论文提出了基于模型的强化学习模型(Model-based RL)的变种,称为广义隐参数马尔可夫决策过程(Generalized Hidden Parameter MDPs,GHP-MDPs),该模型结合了层次模型和潜变量,并且在多个任务与环境中实现了初步验证,具有高效的泛化和学习效率。