具备到达避免保证的随机系统学习控制策略

AAAIOct, 2022

具备到达避免保证的随机系统学习控制策略

Learning Control Policies for Stochastic Systems with Reach-avoid Guarantees

Đorđe Žikelić, Mathias Lechner, Thomas A. Henzinger, Krishnendu Chatterjee

TL;DR本论文介绍了一种利用神经网络提供形式化到达 - 避免保证的方法，通过在随机非线性动态系统中学习控制器来解决实现证明的问题，以及提出了超级马丁格尔的概念作为证明，并通过对 Lyapunov 函数的确定性系统的随机扩展上的级集的约束来提供可达性和避开保证。

Abstract

We study the problem of learning controllers for discrete-time non-linear stochastic dynamical systems with formal reach-avoid guarantees.

learning controllers stochastic dynamical systems formal reach-avoid guarantees neural networks lyapunov functions

发现论文，激发创造

基于学习的具有神经网络策略的随机动力系统的验证

我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务，并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速，并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖且快速的方法以及集成了高效的局部细化方案来实现比现有方法更粗的离散化。我们对多个基准测试和使用不同强化学习算法训练的神经网络策略进行了实证评估，结果表明我们的方法在验证神经网络策略方面是有效的。

Jun, 2024

带有正式保证的随机控制系统中的组合策略学习

通过学习神经网络策略及其与 rech-avoid 超融合 (Probabilistic Reach-Avoid Supermartingales, RASM) 的组合，提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概率，并在 Stochastic Nine Rooms 环境中进行了评估。

Dec, 2023

随机系统中区域稳定控制策略的学习

论文研究了在随机系统中学习控制策略的问题，提出了新的稳定排名超级鞅（sRSMs）概念，并介绍了一个可以学习控制策略和 sRSMs 的学习过程，实验结果表明该过程可以成功地学习稳定性证明策略。

Oct, 2022

神经网络超马丁格尔稳定性检验在随机控制系统中的应用

我们提出了一种使用 Ranking Supermartingales（RSMs）证明绝大多数（a.s.）渐进稳定性的方法，同时还提出了一种学习神经网络 RSMs 的方法。我们的方法保证系统的 a.s. 渐进稳定性，并首次提供了获得稳定时间上界的方法，这是随机李雅普诺夫函数所没有的。

Dec, 2021

安全控制策略的神经证书

本文提出一种方法，通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制，该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。

Jun, 2020

贝叶斯神经网络的概率式到达 - 避免

本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题，包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率，以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。

Oct, 2023

随机控制系统中的稳定策略学习

本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略，结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。

May, 2022

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017