稳定化递归平衡网络控制器的合成

Mar, 2022

稳定化递归平衡网络控制器的合成

Synthesis of Stabilizing Recurrent Equilibrium Network Controllers

Neelay Junnarkar, He Yin, Fangda Gu, Murat Arcak, Peter Seiler

TL;DR基于循环平衡网络的非线性动态控制器参数化方法，通过投影策略梯度方法来合成控制器，并解决系统的快速稳定性与非线性问题。

Abstract

We propose a parameterization of a nonlinear dynamic controller based on the recurrent equilibrium network, a generalization of the recurrent neural network. We derive constraints on the parameterization under wh

nonlinear dynamic controller recurrent equilibrium network exponential stability partially observed dynamical system projected policy gradient methods

发现论文，激发创造

稳定强化学习控制：用于优化所有稳定行为的模块化框架

我们提出了一个结合深度强化学习优化驱动和无模型优势，通过使用 Youla-Kucera 参数化来定义搜索域提供稳定性保证的反馈控制器设计框架。通过最近在行为系统中的进展，我们能够构建基于数据驱动的内部模型，使得 Youla-Kucera 参数化的备选实现完全基于输入 - 输出探索数据。此外，我们还给出了一个矩阵分解方法来明确表示所有稳定线性算子的集合，用于深度强化学习代理的训练。最后，我们还展示了如何将这些思想应用于调整固定结构控制器。

Oct, 2023

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

分布鲁棒策略与李雅普诺夫证明学习

论文介绍了一种新颖的方法，用于在模型不确定性下合成分布鲁棒的稳定神经控制器和控制系统的证书。通过采用一种新颖的分布鲁棒的 Lyapunov 导数机会约束公式，确保 Lyapunov 证书的单调减少，解决了不确定系统稳定性保证控制器设计中的关键挑战。将这个条件整合到用于训练基于神经网络的控制器的损失函数中，证明了在包括超出分布范围的模型不确定性的情况下，闭环系统的全局渐近稳定性可以得到高可信度的认证。通过在两个控制问题的模拟过程中，将该方法与无关不确定性的基准方法和几个强化学习方法进行比较，验证了所提出方法的有效性和高效性。

Apr, 2024

深度强化学习控制稳定性的模块化框架

本文提出了一种基于深度强化学习优势和 Youla-Kucera 参数化的稳定性保证相结合的反馈控制器设计框架，并采用基于数据驱动内部模型的替代 Youla-Kucera 参数化方法。使用神经网络表示参数化一组非线性稳定算子，实现了与标准深度学习库的无缝集成，并在两罐系统的真实模拟中展示了这种方法。

Apr, 2023

通过闭环阻尼性保证合成神经网络控制器

通过基于积分二次约束的方法，本文提出一种合成神经网络控制器的方法，使得植物和控制器的反馈系统具有耗散性，并证明 L2 增益的性能要求。通过不确定性来描述植物的不确定性和神经网络的非线性，使用耗散条件导出了不确定线性时不变系统的耗散性条件，并使用线性矩阵不等式来合成神经网络控制器。最后，将该凸条件用于基于投影的训练方法来合成具有耗散性保证的神经网络控制器。通过倒立摆和弹性杆车的数值例子来证明这种方法的有效性。

Apr, 2024

基于概率模型的强化学习合成神经网络控制器

本研究提出了一种基于模型的强化学习算法，通过训练具有可校准不确定性的神经网络动力学模型，实现对机器人系统控制器的快速学习，并在多项基准任务中验证了该算法的高效性和可扩展性，包括针对六足水下自主机器人的运动控制器学习。

Mar, 2018

针对部分观测非线性系统的全约束和 Lipschitz 闭环学习

这篇论文提出了一种基于学习的控制策略参数化方法，可以用于非线性、部分观测的动态系统，并基于 Youla-REN 参数化和循环均衡网络模型，证明该参数化可以自动满足闭环系统稳定性和鲁棒性条件，可用于安全的学习控制，同时在模拟磁悬浮和倒置旋转臂上实现了稳定性和鲁棒性得到了提高。

Apr, 2023

神经李亚普诺夫控制

本研究提出了一种新的方法来学习控制策略和非线性控制问题的神经网络李雅普诺夫函数，具有稳定性的可证明保障。该方法包括一个学习者和一个伪造器，通过快速引导学习者寻找控制和李雅普诺夫函数并寻找反例来终止程序，以保证控制的非线性系统的稳定性。该方法极大地简化了李雅普诺夫控制设计的过程，提供了端到端的正确性保证，并且可以获得比现有方法如 LQR 和 SOS/SDP 更大的吸引域范围。我们进行了实验，展示了新方法如何获得高质量的解决方案以应对具挑战性的控制问题。

May, 2020

通过信任域拟 - 牛顿策略优化强化模型预测控制

通过使用参数化模型预测控制器作为策略并利用所需参数的少量，我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明，所提出的训练算法在数据效率和准确性方面优于其他算法。

May, 2024

通过 Sums-of-Squares 优化，合成用于非线性系统的稳定的降阶视觉动作策略

采用视觉观察和学习感知模块的反馈控制循环，我们提出了一种合成动态、降阶输出反馈多项式控制策略的方法，其中利用了李雅普诺夫分析来构建策略的稳定性。我们使用两种方法来近似解决这个非凸问题，并拓展了我们的方法以提供在观测噪声存在的情况下的稳定性保证。我们在多个非完全驱动非线性系统上评估了我们的方法，并显示出我们的保证可以转化为从图像控制这些系统的经验稳定性。

Apr, 2023