Sep, 2011

有非马尔可夫奖励的决策论规划

TL;DR该研究提出了一个软件平台 NMRDPP(Non-Markovian Reward Decision Process Planner)用于开发和实验决策理论计划的相关方法,其中包括基于现有和新方法的一系列方法,比如基于时间逻辑的非马尔可夫奖励函数的紧凑规范,启发式搜索和结构化方法,并通过 NMRDPP 比较这些方法并确定影响其性能的某些问题特征。