BriefGPT.xyz
大模型
Ask
alpha
关键词
best-policy identification
搜索结果 - 3
达成目标很困难:解决随机最短路径样本复杂度问题
本文研究计算马尔科夫决策过程中随机最短路径问题中,学习合理策略的采样复杂度,得到在有选项模型的情况下,学习合理策略的采样下界,并提出一种能够匹配界限的算法。同时,探讨在没有选项模型的情况下学习最佳策略识别问题中的高效学习可能性,并证明在一些
→
PDF
2 years ago
马尔可夫决策过程中最佳策略识别的自适应采样
本文研究在马尔可夫决策过程中,通过生成模型来识别最优策略,提出了 KLB-TS 算法,并提供了其样本复杂度的渐近保证。
PDF
4 years ago
自适应无奖励探索
我们提出了一种新的自适应奖励免费探索方法,直接降低最大 MDP 估计误差的上限并证明了 RF-UCRL 算法具有良好的采样复杂性界限,可以看作是 Fiechter 算法的变体,该算法最初是针对另一种目标:最佳策略识别。
PDF
4 years ago
Prev
Next