Dec, 2023

带有正式保证的随机控制系统中的组合策略学习

TL;DR通过学习神经网络策略及其与rech-avoid超融合(Probabilistic Reach-Avoid Supermartingales, RASM)的组合,提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概率,并在Stochastic Nine Rooms环境中进行了评估。