Nov, 2023

从优化到控制:拟策略迭代

TL;DR通过将隐含于现有优化算法中的类比隐含为显性,借助统一的解决方案特征化,本文实现了对四个问题类的分析。选择已在现有文献中指出的等效优化和控制算法,并利用特定于 MDP 的两个线性结构约束对优化中的 Hessian 进行线性约束,通过加入两个新方向和自适应步长,将标准的值迭代算法改进为一种新的一阶控制算法,被称为准策略迭代,并且与折扣因子关系的敏感性很低。