ICLRFeb, 2022

离散 Markov 语境演变下的强化学习

TL;DR本文基于贝叶斯方法和变分推断,通过运用适合马尔科夫过程建模的粘性 HDP 先验,提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架,并且在运用了上述框架后,成功地实现了在一些开放环境下的较高效政策学习,这也是其他同类方法做不到的。