IJCAIJun, 2017

使用答案集编程在线构建马尔可夫决策过程状态集的方法

TL;DR本文提出了一种名为 oASP(MDP)的方法,其将 Markov 决策过程(MDP)与 Answer Set 编程(ASP)结合起来,以解决在非平稳领域中寻找最优策略的问题。