BriefGPT.xyz
Ask
alpha
关键词
hessian-based techniques
搜索结果 - 1
无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-
→
PDF
3 months ago
Prev
Next