May, 2023

重新思考基于群体协助的离线策略强化学习

TL;DR本文深入研究了结合 off-policy reinforcement learning 和 population-based optimization 两种算法的训练方法,在机器人运动任务中的实验结果表明 population data 的使用会影响训练稳定性并降低性能,作者进一步提出了双重回放缓冲设计来解决此问题。