Mar, 2017

演化策略作为可扩展替代强化学习的方案

TL;DR使用黑盒优化算法 —— 进化策略,替代流行的基于 MDP 的 RL 技术,通过 MuJoCo 和 Atari 上的实验表明,ES 是一种可行的解决策略,随着可用 CPU 数量的增加而呈线性规模,同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。