Jul, 2020

基于核方法的度量空间非平稳强化学习

TL;DR本文提出了KeRNS算法,该算法使用基于时间依赖内核的非参数模型来处理非静态MDP中的情节强化学习问题,并且证明了与状态动作空间的覆盖维度和MDP的总变化量有关的遗憾界,该方法一般化了先前基于滑动窗口和指数折扣等方法来处理变化环境的方法。此外,我们提出了KeRNS的实用实现,分析了它的遗憾并进行了实验验证。