Oct, 2023
牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁
Bridging the Gap between Newton-Raphson Method and Regularized Policy Iteration
Zeyang Li, Chuxiong Hu, Yunan Wang, Guojian Zhan, Jie Li...
TL;DR通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价,并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性,以及有限步策略评估版本等价于不精确的 Newton 方法。