Dec, 2019

强化学习的双重稳健离线策略演员-评论家算法

TL;DR本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。