Aug, 2019

探索增强的 POLITEX

TL;DR该论文从强化学习、价值函数逼近和策略迭代等方面出发,提出了一种改进的 POLITEX 算法,采用单个充分探索策略替代之前对所有策略均需要探索环境的假设,以实现在存在探索难题的情况下控制代价的目标。