无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

Dec, 2019

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem

Hesameddin Mohammadi, Armin Zare, Mahdi Soltanolkotabi, Mihailo R. Jovanović

TL;DR研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Abstract

model-free reinforcement learning attempts to find an optimal control action for an unknown dynamical system by directly searching over the parameter space of controllers. The convergence behavior and statistical

model-free reinforcement learning optimal control action linear quadratic regulator exponential stability sample complexity

发现论文，激发创造

线性二次型调节器的策略梯度方法全局收敛

该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Jan, 2018

线性二次调节器中基于模型和免模型方法之间的差异：一种渐近观点

研究在连续控制任务上，基于模型的方法与无模型方法的样本复杂度差异，发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低，且最佳控制常常需要较少的样本量，这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。

Dec, 2018

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

线性二次调节器的样本复杂度：强化学习视角

我们提供了一个新的算法，可以在没有依赖于两点梯度估计的情况下，在大约 1/ε 个函数评估内确保 ε- 最优性，适用于具有未知参数的折扣离散时间 LQR 问题。

Apr, 2024

线性 - 二次均场强化学习：策略梯度方法的收敛性

研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Oct, 2019

一个 Q 学习算法用于具有随机未知分布参数的离散时间线性二次控制：收敛和稳定性

本文针对离散时间线性系统和二次标准的随机参数情况，提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下，学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。

Nov, 2020

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

无导数策略优化方法：线性二次系统的保证

本文研究了在线性策略的类别中，基于无导数法的策略优化方法。研究了不同的驱动噪声和奖励反馈设置，特别是应用于线性二次系统时的收敛速度，发现这些方法会在求解问题的误差、维度和曲率特性的确定的多项式次零阶求解下收敛至最优解水平，并发现了不同驱动噪声和奖励反馈设置下的一些有趣差异，最终在对这些系统进行广泛的模拟验证下进行计算。此外，我们也研究了基于零阶优化算法的随机非凸问题的收敛速度。

Dec, 2018

为量子控制设计的样本高效的基于模型的强化学习

利用基于神经常微分方程（ODE）的归纳偏置，提出了一种基于模型的强化学习（RL）方法，用于在噪声时变门优化中近似环境模型，其时间依赖部分包括控制方式完全已知。与标准的基于模型的 RL 相比，我们的方法在样本复杂度方面具有数量级的优势，适用于控制一、二量子位系统。

Apr, 2023

离散时间静态输出反馈策略梯度方法的优化景观

静态输出反馈控制中政策梯度方法在离散时间线性时不变系统中的优化性质的分析

Oct, 2023