Sep, 2023

学习估计器设计中基于消失视野策略搜索的全局收敛

TL;DR提出了回溯视角策略梯度(RHPG)算法,是第一个在学习最优线性估计器设计(即 Kalman 滤波器)方面具有可证明的全局收敛性的 PG 算法。这项工作旨在通过在算法设计和理论分析中利用经典控制理论,开发具有性能保证的强化学习算法,同时验证了该算法的有效性。