Feb, 2020

自适应近似策略迭代

TL;DR本研究提出一种自适应近似政策迭代 (AAPI) 学 ​​习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许多应用领域中取得了令人瞩目的表现。