ICLROct, 2018
CEM-RL: 将进化和梯度方法结合应用于策略搜索
CEM-RL: Combining evolutionary and gradient-based methods for policy search
Aloïs Pourchot, Olivier Sigaud
TL;DR本文提出了一种新的方法 CEM-RL,将深度神经进化算法和深度强化学习算法相结合,选取 Twin Delayed Deep Deterministic policy gradient 和交叉熵方法,并在深度 RL 的一组基准测试中进行评估,结果表明 CEM-RL 在性能和样本效率之间取得了令人满意的平衡。