贝叶斯神经网络的概率式到达 - 避免

Oct, 2023

贝叶斯神经网络的概率式到达 - 避免

Probabilistic Reach-Avoid for Bayesian Neural Networks

Matthew Wicker, Luca Laurenti, Andrea Patane, Nicola Paoletti, Alessandro Abate...

TL;DR本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题，包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率，以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。

Abstract

model-based reinforcement learning seeks to simultaneously learn the dynamics of an unknown stochastic environment and synthesise an optimal policy for acting in it. Ensuring the safety and robustness of sequenti

model-based reinforcement learning safety and robustness dynamics models reach-avoid probabilities control synthesis algorithms

发现论文，激发创造

具备到达避免保证的随机系统学习控制策略

本论文介绍了一种利用神经网络提供形式化到达 - 避免保证的方法，通过在随机非线性动态系统中学习控制器来解决实现证明的问题，以及提出了超级马丁格尔的概念作为证明，并通过对 Lyapunov 函数的确定性系统的随机扩展上的级集的约束来提供可达性和避开保证。

Oct, 2022

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023

BBReach: 深度强化学习系统的紧凑且可扩展的黑盒到达性分析

本文提出了一种针对 DRL 系统的紧密可扩展的可达性分析方法，使用抽象状态处理内嵌的神经网络以避免神经网络的过估计，并设计了一种名为 BBReach 的工具来评估其紧密性、可扩展性和效率。

Nov, 2022

贝叶斯神经网络的概率安全性

研究了在敌对输入扰动下，贝叶斯神经网络的概率安全性，使用非凸优化松弛技术计算贝叶斯神经网络概率安全性的下界，并且证明方法可用于对具有数百万参数的 BNN 进行概率安全性的认证。

Apr, 2020

基于学习的具有神经网络策略的随机动力系统的验证

我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务，并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速，并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖且快速的方法以及集成了高效的局部细化方案来实现比现有方法更粗的离散化。我们对多个基准测试和使用不同强化学习算法训练的神经网络策略进行了实证评估，结果表明我们的方法在验证神经网络策略方面是有效的。

Jun, 2024

贝叶斯神经网络中的随机动力系统学习与策略搜索

本研究提出了一种基于模型的强化学习算法，它将贝叶斯神经网络与随机展开和随机优化策略相结合，并通过最小化 α- 散度来训练 BNNs 以捕获转换动态中复杂的统计模式，解决了传统方法容易失误的多模态和异方差问题，并在控制燃气轮机的真实场景中获得了有希望的结果。

May, 2016

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

贝叶斯探索网络

贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法，但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战，通过在一维贝尔曼算子中建模不确定性，引入贝叶斯探索网络 (BEN)，通过正态化流来建模贝尔曼算子中的不确定性，并通过变分推断来建模知识性不确定性，实验结果表明，BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。

Aug, 2023

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

安全控制策略的神经证书

本文提出一种方法，通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制，该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。

Jun, 2020