Oct, 2023

牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁

TL;DR通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价,并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性,以及有限步策略评估版本等价于不精确的 Newton 方法。