BriefGPT.xyz
Ask
alpha
关键词
communicating markov decision process
搜索结果 - 1
使用经验伯恩斯坦不等式的近乎最优乐观强化学习
本研究提出了一种基于方差置信区间的简单算法 UCRL-V,能够有效降低在未知有限通信 MDP 中的最优遗憾,并在多种环境下的实验证明 UCRL-V 算法优于现有算法。
PDF
5 years ago
Prev
Next