Jun, 2023

多缓冲区通信引导的演化策略强化学习

TL;DR本文提出了一种新的进化强化学习模型(Evolutionary Reinforcement Learning),它将一种名为Evolutionary Strategies的进化算法与离线策略深度强化学习算法TD3结合起来,利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在MuJoCo控制任务上实现了有竞争力的表现,甚至在3个测试环境中胜过了著名的CEM-RL最先进的状态。