Mar, 2019

基于交叉熵引导策略的连续动作Q学习

TL;DR本文提出了一个名为Cross-Entropy Guided Policies (CGP)的新方法来将Q-learning与使用Cross-Entropy Method (CEM)的迭代采样策略相结合,以提高其在连续值动作域中的运行速度和稳定性。