Mar, 2019

基于交叉熵引导策略的连续动作 Q 学习

TL;DR本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合,以提高其在连续值动作域中的运行速度和稳定性。