Jun, 2011

无限时间视角的策略梯度估计

TL;DR本文提出了一种名为 GPOMDP 的基于模拟的算法,用于在部分可观测马尔可夫决策过程(POMDPs)中控制参数化随机策略,生成偏差估计的平均奖励梯度。