Feb, 2022

强化学习在随机有向图中的可达性分析

TL;DR使用强化学习方法,我们通过特征化随机定向图中的可达性概率,展示了随机定向图中的转移概率动态可以被建模成一个差分包含,进而被理解为一个 Markov 决策过程。通过这个框架,我们提出了一种确定奖励功能的方法,以提供随机定向图中一组节点的可达性概率上下限。该方法的有效性通过应用于由移动代理的接近模式生成的时间变化的接触网络的流行病疾病扩散得到证明。