线性二次调节器的样本复杂度：强化学习视角

Apr, 2024

线性二次调节器的样本复杂度：强化学习视角

Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens

Amirreza Neshaei Moghaddam, Alex Olshevsky, Bahman Gharesifard

TL;DR我们提供了一个新的算法，可以在没有依赖于两点梯度估计的情况下，在大约 1/ε 个函数评估内确保 ε- 最优性，适用于具有未知参数的折扣离散时间 LQR 问题。

Abstract

We provide the first known algorithm that provably achieves $\varepsilon$-optimality within $\widetilde{\mathcal{O}}(1/\varepsilon)$ function eva

algorithm optimality function evaluations discounted discrete-time lqr problem unknown parameters

发现论文，激发创造

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Dec, 2019

无模型 LQR 的 Oracle 复杂度减小：一种随机方差减小策略梯度方法

通过随机方差缩减策略梯度方法，我们研究了离散时间线性二次调节器（LQR）问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法，结合了一点和两点估计的方差缩减算法，在 β ∈ (0,1) 的情况下，仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。

Sep, 2023

仅需 $\sqrt {T}$ 遗憾值即可高效学习线性 - 二次调节器

我们提出了第一个计算效率高的算法，其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O (\sqrt {T})$ 遗憾度。

Feb, 2019

有限时间跨度下连续时间线性二次强化学习的对数损失

研究连续时间线性二次调节强化学习问题，提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法，并分析了它们的误差界限和实现可能性。

Jun, 2020

具有低秩转换的情节线性二次调节器

本篇论文提出一种基于系统内在低秩结构进行高效学习的算法，使样本复杂度只依赖于秩而非环境维度，同时获得了关于 K 的次线性复杂度，在 LQR 问题的应用中取得了较好效果。

Nov, 2020

线性二次调节器中基于模型和免模型方法之间的差异：一种渐近观点

研究在连续控制任务上，基于模型的方法与无模型方法的样本复杂度差异，发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低，且最佳控制常常需要较少的样本量，这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。

Dec, 2018

高维线性二次系统的高效强化学习

研究高维线性二次（LQ）系统的自适应控制问题，提出一种实现遗憾界为 O (p√T) 的自适应控制方案，并指出该方法在计算广告领域具有突出的应用价值。

Mar, 2013

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

线性二次型调节器的鲁棒自适应控制遗憾界

本文提出了一种自适应控制的方法，可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题，算法的时间复杂度为多项式级别，且在控制中有很好的保障。

May, 2018