非线性策略优化中学习本地线性模型的威力

May, 2023

非线性策略优化中学习本地线性模型的威力

The Power of Learned Locally Linear Models for Nonlinear Policy Optimization

Daniel Pfrommer, Max Simchowitz, Tyler Westenbroek, Nikolai Matni, Stephen Tu

TL;DR本文对于一种学习控制策略进行了系统分析，该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本，我们提出了一种基于本地线性模型的算法，在重要的问题参数上获得了多项式的样本复杂度，并通过合成本地稳定增益，克服了问题时间影响的指数依赖性，我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。

Abstract

A common pipeline in learning-based control is to iteratively estimate a model of system dynamics, and apply a trajectory optimization alg

learning-based control system dynamics trajectory optimization local linear models sample complexity

发现论文，激发创造

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

非线性系统中基于模型的 RL 的最优探索

本研究针对非线性动态系统的控制问题，提出了一种通过最小化控制器损失和在任意系统中都能达到最佳实例速率的算法，该算法通过策略优化来实现优化实验设计，从而降低系统的参数不确定性。

Jun, 2023

基于轨迹的无模型策略优化与单调改进

该论文提出一种基于轨迹的无模型策略优化算法，使用局部二次时间相关 q 函数学习从轨迹数据中反向传播而来，计算准确的 KL 约束满足，实验结果表明与线性化系统动态的方法相比，在高度非线性的控制任务中，我们的算法性能有了显著提高且有保证的单调性改进。

Jun, 2016

LQR 控制中线性控制器的威力

本研究在考虑受环境噪音干扰的线性动态系统调节问题中，计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述，并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛，即使在噪声被选择的情况下。

Feb, 2020

从非线性观测学习线性二次调节器

本研究引入了一种新的连续控制问题设置，称为 RichLQR，使用低维连续潜在状态和高维非线性观测来实现样本高效的学习，并建立了一种新算法 RichID，该算法无需了解编码器的具体信息，仅使用最小二乘回归预测即可实现近似最优控制。

Oct, 2020

线性二次调节器的加速优化环境

本文介绍了一种处理线性二次调节器问题的一阶加速优化框架，并对 SLQR 和 OLQR 问题给出了其收敛性分析。

Jul, 2023

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

在线线性二次控制

我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题，并提出了第一种在这种情况下保证 O（sqrt（T））遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反，我们的 SDP 的可行解都对应于 “强稳定” 策略，这些策略混合到稳定状态的速度呈指数增长。

Jun, 2018

用于非线性系统控制导向识别的主动学习

模型基础的强化学习是控制未知系统有效的方法，本文聚焦于具有非线性参数依赖的模型，并展示了适用于一类非线性动力学问题的主动学习算法的有限样本分析。

Apr, 2024

含二次非线性控制系统的稳定认证学习

本研究主要集中于一种操作器推理方法，旨在基于先验假设构建基于低维度动力学模型，这些假设通常基于已建立的物理学或专家见解。我们的主要目标是开发一种能够推断具有固有稳定性保证的二次控制动力学系统的方法。我们研究具有能量保持非线性的控制系统的稳定性特征，从而识别出这些系统在什么条件下是有界输入有界状态稳定的。随后，这些见解被应用于学习过程，从而产生设计上固有稳定的推断模型。我们通过几个数值示例来验证我们提出的框架的有效性。

Mar, 2024