Feb, 2020
自适应近似策略迭代
Adaptive Approximate Policy Iteration
Botao Hao, Nevena Lazic, Yasin Abbasi-Yadkori, Pooria Joulani, Csaba Szepesvari
TL;DR本研究提出一种自适应近似政策迭代 (AAPI) 学 习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许多应用领域中取得了令人瞩目的表现。