稀疏数据集离散动态输出反馈控制的耗散模仿学习

Sep, 2023

稀疏数据集离散动态输出反馈控制的耗散模仿学习

Dissipative Imitation Learning for Discrete Dynamic Output Feedback Control with Sparse Data Sets

Amy K. Strong, Ethan J. LoCicero, Leila J. Bridgeman

TL;DR通过输入 - 输出稳定性方法，实现稀疏数据集和对于植物模型了解较少的耗散型模仿学习，从专家数据、简化的输入 - 输出植物模型和新的约束中学习闭环稳定的动态输出反馈控制器。

Abstract

imitation learning enables the synthesis of controllers for complex objectives and highly uncertain plant models. However, methods to provide stability guarantees to imitation learned controllers often rely on la

imitation learning stability guarantees input-output stability dissipative imitation learning dynamic output feedback controller

发现论文，激发创造

通过闭环阻尼性保证合成神经网络控制器

通过基于积分二次约束的方法，本文提出一种合成神经网络控制器的方法，使得植物和控制器的反馈系统具有耗散性，并证明 L2 增益的性能要求。通过不确定性来描述植物的不确定性和神经网络的非线性，使用耗散条件导出了不确定线性时不变系统的耗散性条件，并使用线性矩阵不等式来合成神经网络控制器。最后，将该凸条件用于基于投影的训练方法来合成具有耗散性保证的神经网络控制器。通过倒立摆和弹性杆车的数值例子来证明这种方法的有效性。

Apr, 2024

学习耗散神经动力系统

学习非线性动力系统的神经动力学模型，保持模型的耗散性特性是一个困难的问题。本文通过两个阶段的学习方法，首先得到一个接近系统动力学的神经动力学模型，然后通过权重和偏置的扰动问题解决模型的耗散性和贴近非线性系统轨迹的问题，确保得到一个保证耗散性且接近非线性系统的神经动力学模型。

Sep, 2023

快速非线性振动动力学的迭代学习控制（预印本）

通过使用基于迭代学习控制（ILC），时滞相图（TLPP）和高斯过程回归（GPR）的迭代，轨迹优化和参数调整方法，我们开发了一种替代的主动控制系统，该方法可以控制系统的动力学，尽管控制器速度远慢于动力学的速度。我们在 Lorenz 方程组中演示了这个控制器，它通过迭代调整（调谐）系统的输入参数来成功复制所需的振荡轨迹或状态。此外，我们还研究了系统对其控制参数的动态敏感性，识别了期望动态轨迹的连续和有界区域，并证明了只要满足某些要求，控制器对于缺失信息和不可控参数具有鲁棒性。本文提出的控制器为各种快速非线性系统提供了低速控制的框架，可以帮助抑制和减轻不稳定性。

May, 2024

适应性控制和学习的输入扰动

本文研究了多输入多输出线性动态系统的同时调节和估计的自适应算法，提出了基于输入信号扰动的实用、易于实现的控制策略，这些策略表现出随着时间的平方根成比例恶劣后果，并且在时间上均匀保持。进一步讨论了特定的设置，其中这些贪婪策略达到了对数后悔的信息理论下界。为了证明这些结果，运用了最近关于自标准化鞅和策略分解的新方法。

Nov, 2018

分布鲁棒策略与李雅普诺夫证明学习

论文介绍了一种新颖的方法，用于在模型不确定性下合成分布鲁棒的稳定神经控制器和控制系统的证书。通过采用一种新颖的分布鲁棒的 Lyapunov 导数机会约束公式，确保 Lyapunov 证书的单调减少，解决了不确定系统稳定性保证控制器设计中的关键挑战。将这个条件整合到用于训练基于神经网络的控制器的损失函数中，证明了在包括超出分布范围的模型不确定性的情况下，闭环系统的全局渐近稳定性可以得到高可信度的认证。通过在两个控制问题的模拟过程中，将该方法与无关不确定性的基准方法和几个强化学习方法进行比较，验证了所提出方法的有效性和高效性。

Apr, 2024

关于稳定约束模仿学习的样本复杂度

在模仿学习中，专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响，本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法，通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。

Feb, 2021

稳定非线性系统性能提升的学习

通过将非线性系统的内部模型控制原理与最先进的无约束优化方法相结合，我们解决了数据驱动和深度学习方法提高性能的问题，同时保证闭环稳定性。我们的方法可以学习稳定非线性系统上任意深的神经网络控制器，即使优化过早停止，即使未知基准动态，也能保证 Lp 闭环稳定性。我们通过多个数值实验讨论了所提出控制方案的实施细节，包括分布式方案和对应的优化过程，并展示了通过自由塑造代价函数的潜力。

May, 2024

基于学习的自适应控制离散多维随机线性系统稳定性界限及输入限制

针对多维线性系统的自适应稳定化问题，该研究提出了一种确知等效控制方案，该方案将在线参数估计与饱和线性控制相结合，证明了在系统及噪声假设条件下，闭环系统具有高概率稳定性界限，并给出了数值实验结果。

Apr, 2023

基于差分平面的学习模型预测控制使用稳定性、状态和输入约束安全滤波器

学习为基础的最优控制算法通过过去的轨迹数据和对系统动态的学习模型来控制未知系统。本文提出了一种利用微分平直性实现类似最先进的学习为基础的控制器性能但计算开销显著减少的新型非线性控制器。该非线性控制器将微分平直性作为一种特性，通过非线性输入映射将非线性系统准确线性化。本文中，非线性转换通过高斯过程进行学习，并用于安全滤波器，该滤波器以高概率保证稳定性以及输入和平直状态的约束满足。然后，该安全滤波器用于改进来自平直模型预测控制器的输入，从而通过两次连续凸优化执行约束的非线性学习为基础的最优控制。我们将我们的方法与最先进的学习为基础的控制策略进行比较，并取得类似的性能，但计算效率显著提高，同时尊重平直状态和输入约束，并保证稳定性。

Jul, 2023

全球稳定的神经仿真策略

通过引入稳定神经动力系统（SNDS），我们提出了一种保证稳定性的模仿学习方案，该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂，实验结果表明我们的方法解决了以往模仿学习方法中的不稳定性、准确性和计算强度问题，为复杂规划场景中的稳定策略学习提供了有希望的解决方案。

Mar, 2024