BriefGPT.xyz
May, 2019
基于表格型MDPs的非渐进性依赖间隔遗憾上界
Non-Asymptotic Gap-Dependent Regret Bounds for Tabular MDPs
HTML
PDF
Max Simchowitz, Kevin Jamieson
TL;DR
本文的关键是通过建立一种新的“裁剪”遗憾分解技术,证明了乐观算法能够在有限的步数内以对数遗憾实现相应动态规划问题的最优解,并适用于广泛的最优算法。
Abstract
This paper establishes that
optimistic algorithms
attain gap-dependent and non-asymptotic
logarithmic regret
for
episodic mdps
. In contras
→