BriefGPT.xyz
Ask
alpha
关键词
homotopic policy mirror descent
搜索结果 - 1
同伦策略镜像下降:策略收敛,隐含正规化和改进样本复杂度
提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD),用于解决具有有限状态和动作空间的折扣、无限时间 MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时
→
PDF
2 years ago
Prev
Next