Jun, 2020

使用无似然权重的经验回放

TL;DR本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)),在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。