一个 Q 学习算法用于具有随机未知分布参数的离散时间线性二次控制：收敛和稳定性

Nov, 2020

一个 Q 学习算法用于具有随机未知分布参数的离散时间线性二次控制：收敛和稳定性

A Q-learning algorithm for discrete-time linear-quadratic control with random parameters of unknown distribution: convergence and stabilization

PDF

Kai Du, Qingxin Meng, Fu Zhang

TL;DR本文针对离散时间线性系统和二次标准的随机参数情况，提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下，学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。

Abstract

This paper studies an infinite horizon optimal control problem for discrete-time linear systems and quadratic criteria, both with random parameters which are independent and identically distributed with respect t

infinite horizon optimal control problem discrete-time linear systems random parameters online iterative algorithm adaptive feedback control

发现论文，激发创造

在线线性二次控制

我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题，并提出了第一种在这种情况下保证 O（sqrt（T））遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反，我们的 SDP 的可行解都对应于 “强稳定” 策略，这些策略混合到稳定状态的速度呈指数增长。

Jun, 2018

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Dec, 2019

随机信息结构和非马尔可夫环境下的 Q 学习

我们提出了一个收敛定理，研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代，特别是 Q 学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件，并将此定理的应用扩展到各种随机控制问题中。

Oct, 2023

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

基于学习的自适应控制离散多维随机线性系统稳定性界限及输入限制

针对多维线性系统的自适应稳定化问题，该研究提出了一种确知等效控制方案，该方案将在线参数估计与饱和线性控制相结合，证明了在系统及噪声假设条件下，闭环系统具有高概率稳定性界限，并给出了数值实验结果。

Apr, 2023

有限时间自适应 LQ 系统稳定化

利用随机线性反馈的新方法，本文针对具有未知动态的线性系统稳定问题，通过随机方法提供了稳定的有限时间概率保证。

Jul, 2018

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

Q-learning 设计与乐观性的稳定性

该论文介绍了 Q-learning 在强化学习工具中的重要性，提供了随机逼近和 Q-learning 的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题，以及设计了一种近似牛顿 - 拉普森流动的算法。

Jul, 2023

LQR 控制中线性控制器的威力

本研究在考虑受环境噪音干扰的线性动态系统调节问题中，计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述，并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛，即使在噪声被选择的情况下。

Feb, 2020

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018