Jun, 2019

增强型软演员 - 评论家算法:强化最近经验,不遗忘过去

TL;DRSoft Actor-Critic 算法利用最大熵强化学习实现无序策略的演员 - 评论家深度强化学习,结合灵活的离线更新和演员评论家框架,通过实验表明强化学习离线采样技术 Emphasizing Recent Experience (ERE) 能进一步提高 SAC 的效率,在混合 ERE 和 Priority Experience Replay 方法中得到了更好的结果。