Jan, 2021

具有非稳态马尔可夫策略的延迟环境下的决策行为

TL;DR该研究提出了一种针对MDP的决策学习与规划框架,其中决策制定者执行的动作有$m$步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的Q-learning风格模型。