May, 2023

用简单的进化思想辅助基于梯度的强化学习

TL;DR我们提出了一种简单而有效的强化学习算法,通过使用进化算子在强化学习中引入大的有向学习步骤,并使用具有共同经验缓冲区的强化学习代理人种群进行训练,从而有效地搜索策略空间。