基于核方法的度量空间非平稳强化学习

Jul, 2020

基于核方法的度量空间非平稳强化学习

A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces

Omar Darwiche Domingues, Pierre Ménard, Matteo Pirotta, Emilie Kaufmann, Michal Valko

TL;DR本文提出了KeRNS算法，该算法使用基于时间依赖内核的非参数模型来处理非静态MDP中的情节强化学习问题，并且证明了与状态动作空间的覆盖维度和MDP的总变化量有关的遗憾界，该方法一般化了先前基于滑动窗口和指数折扣等方法来处理变化环境的方法。此外，我们提出了KeRNS的实用实现，分析了它的遗憾并进行了实验验证。

Abstract

In this work, we propose KeRNS: an algorithm for episodic reinforcement learning in non-stationary markov decision processes (MDPs) whose state-action set is endowed with a metric. Using a non-parametric model of