Feb, 2018

回归基础:用规范进化策略测试在 Atar 游戏中的表现

TL;DR该研究发现,进化策略(ES)算法可以作为一种可替代强化学习(RL)的算法,对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能,并且即使是基本的 ES 算法也可以实现成功。研究还表明,ES 算法与传统 RL 算法有着非常不同的性能特征,将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。