AAAINov, 2019

层次平均回报策略梯度算法

TL;DR本文扩展了分层 option-critic 策略梯度定理,旨在通过使用基于常微分方程的方法分析,优化代理的策略,最大限度地获得马尔可夫链的最终奖励,并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。