基于形式抽象的随机和不确定动态模型自动构造控制

Nov, 2023

基于形式抽象的随机和不确定动态模型自动构造控制

Correct-by-Construction Control for Stochastic and Uncertain Dynamical Models via Formal Abstractions

Thom Badings, Nils Jansen, Licio Romao, Alessandro Abate

TL;DR自动化合成控制器，基于概率时间逻辑规范的随机动态模型，通过状态验证技术构建的 iMDP（带概率区间的马尔科夫决策过程），解决安全关键场景中面临的挑战。

Abstract

automated synthesis of correct-by-construction controllers for autonomous systems is crucial for their deployment in safety-critical scenarios. Such autonomous systems are naturally modeled as →

automated synthesis controllers stochastic dynamical models probabilistic temporal logic specification abstraction framework

发现论文，激发创造

通过正式抽象实现非高斯噪声动态系统的鲁棒控制

该研究论文提出了一种新颖的控制器合成方法，它不需要任何明确表示噪声分布的方式，而是通过将控制系统抽象为捕捉噪声的有限状态模型，然后使用从场景方法中的工具来计算可能正确的限制，基于一些噪声的有限数量样本。通过缩小合成过程的复杂性，该方法在实际控制系统上的应用具有广泛的适用性。

Jan, 2023

概率不够用：针对存在认识不确定性的随机动态模型的形式控制器综合

本文介绍一种使用区间 Markov 决策过程的抽象方式，在连续状态的模型中捕捉随机噪声和不确定参数的 aleatoric 和 epistemic 不确定性，进行控制器的综合。经实验验证，考虑 epistemic 不确定性可以提高控制器的鲁棒性。

Oct, 2022

不确定性引导效率：用于随机混合系统的可扩展形式合成

该研究旨在为线性动态的离散时间随机混合系统开发高效的抽象方法，通过不确定的 MARKOV 决策过程解决了现有形式方法的限制，可以计算精确的抽象误差，并应用于有限和无限时间范围内的合成步骤，大大缩减抽象误差，提高可缩放性。

Jan, 2019

具有不确定性动态的 Markov 跳跃线性系统的形式控制器综合

该论文提出了一种使用概率计算树逻辑规范的方法来综合 Markov 跳变线性系统 (MJLS) 的控制器，该方法基于所生成的有限状态抽象，该抽象通过采样技术从 “场景方法” 中计算转换概率的区间，从而生成 MJLS 的概率上合理的近似，并将该近似评估到实际的温度控制，与空中飞行器交付问题等多个基准测试问题中。

Dec, 2022

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

此篇论文探讨了在未知、随机环境中，通过建立模型、构造符合某些临时逻辑规则要求的 MDP，并通过 PAC-MDP 的方法，利用数据、空间和时间进行迭代更新，得到了一个在一定条件下接近最优的策略，从而达到在给定规则下最大化概率的目的。

Apr, 2014

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

基于非高斯不确定性的随机非线性机器人系统控制最小化

该论文提出了一种针对非线性机器人系统中存在的概率不确定性和干扰的闭环控制问题的解决方案，并将控制器设计问题作为概率分布的统计量的优化问题来处理，以此来降低跟踪偏差，并通过与现有的概率控制方法的比较来证明其性能。

Mar, 2023

通过高斯过程回归形式化验证未知动态系统

本文提出了一个基于高斯过程回归的验证框架，将连续空间系统抽象为有限状态不确定马尔可夫决策过程，利用模型检测工具验证抽象的不确定性，并将结果扩展到基础的部分可观测系统，有效地应用于线性、非线性和切换系统等多种情况下。

Dec, 2021

概率模型检查和自主性

本文综述了概率模型检测在 PRISM 和 PRISM-games 模型检查器支持下的可观测和不可观测马尔可夫决策过程、顺序和并发随机博弈以及相关概率时态逻辑，以及其在自主系统中的应用，并探讨了未来研究方向和挑战。

Nov, 2021

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024