Aug, 2023

混合系统的护盾强化学习

TL;DR通过使用所谓的野蛮方法,本文提出了构建障碍盾牌的方法,通过系统地选择真实转移函数的样本,以提取基于分区的双人安全游戏的近似有限表示。尽管难以达到严格的安全保证,但我们通过原型实现和 UPPAAL STRATEGO 实验证明了强大的统计安全保证,进一步研究了障碍盾牌的合成对控制器学习前和后应用的影响,并在一系列案例研究中应用了我们的技术。