communicating markov decision process | BriefGPT

关键词communicating markov decision process

搜索结果 - 1

使用经验伯恩斯坦不等式的近乎最优乐观强化学习
本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。
PDF5 years ago