基于学习的具有神经网络策略的随机动力系统的验证

Jun, 2024

基于学习的具有神经网络策略的随机动力系统的验证

Learning-Based Verification of Stochastic Dynamical Systems with Neural Network Policies

Thom Badings, Wietze Koops, Sebastian Junges, Nils Jansen

TL;DR我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务，并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速，并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖且快速的方法以及集成了高效的局部细化方案来实现比现有方法更粗的离散化。我们对多个基准测试和使用不同强化学习算法训练的神经网络策略进行了实证评估，结果表明我们的方法在验证神经网络策略方面是有效的。

Abstract

We consider the verification of neural network policies for reach-avoid control tasks in stochastic dynamical systems. We use a

neural network policies verification reach-avoid control tasks stochastic dynamical systems rasm

发现论文，激发创造

具备到达避免保证的随机系统学习控制策略

本论文介绍了一种利用神经网络提供形式化到达 - 避免保证的方法，通过在随机非线性动态系统中学习控制器来解决实现证明的问题，以及提出了超级马丁格尔的概念作为证明，并通过对 Lyapunov 函数的确定性系统的随机扩展上的级集的约束来提供可达性和避开保证。

Oct, 2022

神经网络超马丁格尔稳定性检验在随机控制系统中的应用

我们提出了一种使用 Ranking Supermartingales（RSMs）证明绝大多数（a.s.）渐进稳定性的方法，同时还提出了一种学习神经网络 RSMs 的方法。我们的方法保证系统的 a.s. 渐进稳定性，并首次提供了获得稳定时间上界的方法，这是随机李雅普诺夫函数所没有的。

Dec, 2021

带有正式保证的随机控制系统中的组合策略学习

通过学习神经网络策略及其与 rech-avoid 超融合 (Probabilistic Reach-Avoid Supermartingales, RASM) 的组合，提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概率，并在 Stochastic Nine Rooms 环境中进行了评估。

Dec, 2023

具分布鲁棒性的不精确神经网络统计验证

为高维自主系统提供行为保证是人工智能安全领域中的一个特别具有挑战性的问题。本文提出了一个基于主动学习、不确定性量化和神经网络验证的新方法，其中的核心是一种称为不精确神经网络的集成技术，它提供了用于引导主动学习的不确定性。通过在多个物理模拟器上对经过增强学习的控制器进行评估，证明了我们的方法可以为高维系统提供有用且可扩展的保证。

Aug, 2023

安全控制策略的神经证书

本文提出一种方法，通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制，该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。

Jun, 2020

贝叶斯神经网络的概率式到达 - 避免

本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题，包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率，以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。

Oct, 2023

深度强化学习控制的机器人和自主系统的可达性验证的可靠性评估

本文提出了一个用于 DRL 控制的机器人和自主系统的可靠性评估框架，并利用形式可靠性分析生成的验证证据，验证了其安全性。

Oct, 2022

随机系统中区域稳定控制策略的学习

论文研究了在随机系统中学习控制策略的问题，提出了新的稳定排名超级鞅（sRSMs）概念，并介绍了一个可以学习控制策略和 sRSMs 的学习过程，实验结果表明该过程可以成功地学习稳定性证明策略。

Oct, 2022

随机控制系统中的稳定策略学习

本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略，结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。

May, 2022

ReachNN: 神经网络控制系统的可达性分析

本篇研究论文提出了一种新的 reachability analysis 方法，通过 Bernstein 多项式可以验证具有广泛的激活函数形式的神经网络控制系统的安全性，同时基于 Lipschitz 连续性提供了理论误差界估计和实际采样误差界估计方法。与之前的方法相比，这种方法可以应用于包含多种类型激活函数的异构神经网络，实验结果表明有效性。

Jun, 2019