Aug, 2013

隐含参数的马尔科夫决策过程:半参数回归方法用于发现隐含任务参数

TL;DR该论文介绍了一种名为隐藏参数马尔科夫决策过程(HiP-MDP)的框架,用于对控制应用中的不同动态系统进行参数化,并提出了一种半参数回归方法来学习其结构。在控制设置中,学习的HiP-MDP能够快速识别新任务实例的动态,使得智能体能够灵活适应任务的变化。