BriefGPT.xyz
大模型
Ask
alpha
关键词
klb-ts
搜索结果 - 1
马尔可夫决策过程中最佳策略识别的自适应采样
本文研究在马尔可夫决策过程中,通过生成模型来识别最优策略,提出了 KLB-TS 算法,并提供了其样本复杂度的渐近保证。
PDF
4 years ago
Prev
Next