NIPSJun, 2017

基于隐含参数马尔可夫决策过程的强健高效迁移学习

TL;DR我们引入了一个新的 HiP-MDP 隐藏参数马尔可夫决策过程的处理方式,它能够通过低维度的潜在嵌入来建模相关任务的家族。我们采用贝叶斯神经网络来替换原模型中的高斯过程,从而使推理更具可扩展性,我们正确地模拟了潜在参数和状态空间中的联合不确定性,并扩大了 HiP-MDP 的应用范围,可以应用于维度更高且具有更复杂动态的问题。