May, 2023
重新思考基于群体协助的离线策略强化学习
Rethinking Population-assisted Off-policy Reinforcement Learning
Bowen Zheng, Ran Cheng
TL;DR本文深入研究了结合 off-policy reinforcement learning 和 population-based optimization 两种算法的训练方法,在机器人运动任务中的实验结果表明 population data 的使用会影响训练稳定性并降低性能,作者进一步提出了双重回放缓冲设计来解决此问题。