Jan, 2022

深度强化学习的验证性概率策略

TL;DR本研究提出了一种基于 Markov 决策过程、混合整数线性规划、熵式细化和概率模型检验的抽象方法,用于验证深度强化学习中的概率策略,并在一些强化学习基准测试上验证了其有效性。