ICMLFeb, 2021

双重稳健离线演员 - 评论家算法:收敛和最优性

TL;DR本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC,通过利用已学习的干扰函数来降低估计误差并减少采样复杂度,同时采用单时间尺度结构,可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛,并且通过分析样本复杂度证明了算法渐进的收敛速率。