Oct, 2019

多步贪心强化学习算法

TL;DR本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势,并提出了基于$\kappa$-Policy Iteration和$\kappa$-Value Iteration的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现优于传统的强化学习算法如DQN和TRPO。