随机控制系统中的稳定策略学习

ICLRMay, 2022

Learning Stabilizing Policies in Stochastic Control Systems

Đorđe Žikelić, Mathias Lechner, Krishnendu Chatterjee, Thomas A. Henzinger

TL;DR本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略，结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。

Abstract

In this work, we address the problem of learning provably stable neural network policies for stochastic control systems. While recent work has demonstrated the feasibility of certifying given policies using martingale theory, the problem of how to learn such policies is little explored

neural network policies stochastic control systems martingale theory policy stability learning algorithm

发现论文，激发创造

随机系统中区域稳定控制策略的学习

论文研究了在随机系统中学习控制策略的问题，提出了新的稳定排名超级鞅（sRSMs）概念，并介绍了一个可以学习控制策略和 sRSMs 的学习过程，实验结果表明该过程可以成功地学习稳定性证明策略。

Oct, 2022

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

多个未知线性系统的联合学习稳定化

本研究提出一种基于学习的联合稳定化算法，通过对不稳定状态轨迹数据的处理快速学习所有系统的稳定化策略，从而解决了基于联合多系统自适应控制的快速可靠联合稳定化问题。

Jan, 2022

具备到达避免保证的随机系统学习控制策略

本论文介绍了一种利用神经网络提供形式化到达 - 避免保证的方法，通过在随机非线性动态系统中学习控制器来解决实现证明的问题，以及提出了超级马丁格尔的概念作为证明，并通过对 Lyapunov 函数的确定性系统的随机扩展上的级集的约束来提供可达性和避开保证。

Oct, 2022

神经网络超马丁格尔稳定性检验在随机控制系统中的应用

我们提出了一种使用 Ranking Supermartingales（RSMs）证明绝大多数（a.s.）渐进稳定性的方法，同时还提出了一种学习神经网络 RSMs 的方法。我们的方法保证系统的 a.s. 渐进稳定性，并首次提供了获得稳定时间上界的方法，这是随机李雅普诺夫函数所没有的。

Dec, 2021

分布鲁棒策略与李雅普诺夫证明学习

论文介绍了一种新颖的方法，用于在模型不确定性下合成分布鲁棒的稳定神经控制器和控制系统的证书。通过采用一种新颖的分布鲁棒的 Lyapunov 导数机会约束公式，确保 Lyapunov 证书的单调减少，解决了不确定系统稳定性保证控制器设计中的关键挑战。将这个条件整合到用于训练基于神经网络的控制器的损失函数中，证明了在包括超出分布范围的模型不确定性的情况下，闭环系统的全局渐近稳定性可以得到高可信度的认证。通过在两个控制问题的模拟过程中，将该方法与无关不确定性的基准方法和几个强化学习方法进行比较，验证了所提出方法的有效性和高效性。

Apr, 2024

安全控制策略的神经证书

本文提出一种方法，通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制，该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。

Jun, 2020

贝叶斯神经网络中的随机动力系统学习与策略搜索

本研究提出了一种基于模型的强化学习算法，它将贝叶斯神经网络与随机展开和随机优化策略相结合，并通过最小化 α- 散度来训练 BNNs 以捕获转换动态中复杂的统计模式，解决了传统方法容易失误的多模态和异方差问题，并在控制燃气轮机的真实场景中获得了有希望的结果。

May, 2016

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

基于学习的具有神经网络策略的随机动力系统的验证

我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务，并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速，并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖且快速的方法以及集成了高效的局部细化方案来实现比现有方法更粗的离散化。我们对多个基准测试和使用不同强化学习算法训练的神经网络策略进行了实证评估，结果表明我们的方法在验证神经网络策略方面是有效的。

Jun, 2024