BriefGPT.xyz
Ask
alpha
关键词
regularized policy iteration
搜索结果 - 1
牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁
通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价,并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性,以及有限步策略评估版本等价于不精确的 Newton
→
PDF
9 months ago
Prev
Next