Sep, 2020

提高分解平均奖励 MDP 的探索能力

TL;DR研究了在未知的分解式马尔可夫决策过程(FMDP)中,以平均奖励标准为基础的遗憾最小化任务。提出了一种新的遗憾最小化策略DBN-UCRL,该策略依赖于对转换函数的单独元素定义的Bernstein类型置信区间,并在标准环境下进行了数值实验。