随机系统中区域稳定控制策略的学习

Oct, 2022

随机系统中区域稳定控制策略的学习

Learning Control Policies for Region Stabilization in Stochastic Systems

Matin Ansaripour, Mathias Lechner, Đorđe Žikelić, Krishnendu Chatterjee, Thomas A. Henzinger

TL;DR论文研究了在随机系统中学习控制策略的问题，提出了新的稳定排名超级鞅（sRSMs）概念，并介绍了一个可以学习控制策略和 sRSMs 的学习过程，实验结果表明该过程可以成功地学习稳定性证明策略。

Abstract

We consider the problem of learning control policies in stochastic systems which guarantee that the system stabilizes within some specified stabilization region with probability $1$. Our approach is based on the novel notion of →

stochastic systems stabilizing ranking supermartingales learning procedure neural network probability-1 stability

发现论文，激发创造

随机控制系统中的稳定策略学习

本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略，结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。

May, 2022

神经网络超马丁格尔稳定性检验在随机控制系统中的应用

我们提出了一种使用 Ranking Supermartingales（RSMs）证明绝大多数（a.s.）渐进稳定性的方法，同时还提出了一种学习神经网络 RSMs 的方法。我们的方法保证系统的 a.s. 渐进稳定性，并首次提供了获得稳定时间上界的方法，这是随机李雅普诺夫函数所没有的。

Dec, 2021

具备到达避免保证的随机系统学习控制策略

本论文介绍了一种利用神经网络提供形式化到达 - 避免保证的方法，通过在随机非线性动态系统中学习控制器来解决实现证明的问题，以及提出了超级马丁格尔的概念作为证明，并通过对 Lyapunov 函数的确定性系统的随机扩展上的级集的约束来提供可达性和避开保证。

Oct, 2022

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

演员 - 评论员物理告知的神经李雅普诺夫控制

使用 Zubov 的偏微分方程方法训练神经网络控制器和其对应的李亚普诺夫证书，以提高控制策略的吸引域范围。

Mar, 2024

带有正式保证的随机控制系统中的组合策略学习

通过学习神经网络策略及其与 rech-avoid 超融合 (Probabilistic Reach-Avoid Supermartingales, RASM) 的组合，提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概率，并在 Stochastic Nine Rooms 环境中进行了评估。

Dec, 2023

基于学习的具有神经网络策略的随机动力系统的验证

我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务，并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速，并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖且快速的方法以及集成了高效的局部细化方案来实现比现有方法更粗的离散化。我们对多个基准测试和使用不同强化学习算法训练的神经网络策略进行了实证评估，结果表明我们的方法在验证神经网络策略方面是有效的。

Jun, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

神经李亚普诺夫控制

本研究提出了一种新的方法来学习控制策略和非线性控制问题的神经网络李雅普诺夫函数，具有稳定性的可证明保障。该方法包括一个学习者和一个伪造器，通过快速引导学习者寻找控制和李雅普诺夫函数并寻找反例来终止程序，以保证控制的非线性系统的稳定性。该方法极大地简化了李雅普诺夫控制设计的过程，提供了端到端的正确性保证，并且可以获得比现有方法如 LQR 和 SOS/SDP 更大的吸引域范围。我们进行了实验，展示了新方法如何获得高质量的解决方案以应对具挑战性的控制问题。

May, 2020

线性动态系统中带快速稳定的强化学习

研究模型基于的强化学习在未知可稳定线性动态系统中的应用，提出一种通过改进探索策略证明基本稳定性的算法，所提出的算法在避免系统崩溃的同时，实现了对环境的快速探索，在多个自适应控制任务中表现优异。

Jul, 2020