Sep, 2022
演员优先的经验回放
Actor Prioritized Experience Replay
Baturay Saglam, Furkan B. Mutlu, Dogan C. Cicek, Suleyman S. Kozat
TL;DR本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。