BriefGPT.xyz
Ask
alpha
关键词
natural policy gradient method
搜索结果 - 2
离散折扣马尔可夫决策过程中熵正则化误差的尖锐估计
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正
→
PDF
a month ago
线性规划的费舍尔 - 饶梯度流和状态 - 动作自然策略梯度
研究了基于状态 - 动作分布的费舍尔信息矩阵的另一种自然梯度方法,并表明其具有线性收敛性和几何相关的错误估计,改善了现有结果。进一步扩展了这些结果,对于扰动费舍尔 - 劳梯度流和自然梯度流,展示了次线性收敛性以及近似误差的界限。
PDF
3 months ago
Prev
Next