Feb, 2024

用线性策略网络解决深度强化学习基准

TL;DR该研究通过神经进化的方式使用演化策略(ES),优化神经网络的权重来进行直接策略搜索,结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略,相比深度强化学习方法,ES 实现效果与梯度下降算法相当,并且通过直接访问游戏的内存状态,在 Atari 游戏中胜过了 DQN。