ICLRJan, 2021

具有非稳态马尔可夫策略的延迟环境下的决策行为

TL;DR该研究提出了一种针对 MDP 的决策学习与规划框架,其中决策制定者执行的动作有 $m$ 步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。