BriefGPT.xyz
Mar, 2017
强化学习的极小后悔界
Minimax Regret Bounds for Reinforcement Learning
HTML
PDF
Mohammad Gheshlaghi Azar, Ian Osband, Rémi Munos
TL;DR
本文研究了有限时间MDPs中探索的最优性问题,提出了一种基于值迭代的乐观算法,其探索奖励基于下一个状态的经验值的变化量,通过使用集中不等式提高算法的可伸缩性,取得了优于先前最佳算法的研究成果,可以实现与已知理论下限相匹配的后悔度。
Abstract
We consider the problem of efficient exploration in finite horizon
mdps
.We show that an optimistic modification to model-based
value iteration
, can achieve a
→