Nov, 2020

一个 Q 学习算法用于具有随机未知分布参数的离散时间线性二次控制:收敛和稳定性

TL;DR本文针对离散时间线性系统和二次标准的随机参数情况,提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下,学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。