BriefGPT.xyz
Mar, 2018
MDP中无折扣强化学习的方差感知遗憾界
Variance-Aware Regret Bounds for Undiscounted Reinforcement Learning in MDPs
HTML
PDF
Mohammad Sadegh Talebi, Odalric-Ambrym Maillard
TL;DR
本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了KL-UCRL算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。
Abstract
The problem of
reinforcement learning
in an unknown and discrete
markov decision process
(MDP) under the
average-reward criterion
is consi
→