BriefGPT.xyz
Ask
alpha
关键词
gpomdp
搜索结果 - 1
无限时间视角的策略梯度估计
本文提出了一种名为 GPOMDP 的基于模拟的算法,用于在部分可观测马尔可夫决策过程(POMDPs)中控制参数化随机策略,生成偏差估计的平均奖励梯度。
PDF
13 years ago
Prev
Next