ICLROct, 2018

CEM-RL: 将进化和梯度方法结合应用于策略搜索

TL;DR本文提出了一种新的方法 CEM-RL,将深度神经进化算法和深度强化学习算法相结合,选取 Twin Delayed Deep Deterministic policy gradient 和交叉熵方法,并在深度 RL 的一组基准测试中进行评估,结果表明 CEM-RL 在性能和样本效率之间取得了令人满意的平衡。