BriefGPT.xyz
Ask
alpha
关键词
admission control problem
搜索结果 - 1
强化学习与入场控制的懊悔界限
任何强化学习算法的期望遗憾在无折扣回报情况下下界为 $\Omega\left (\sqrt {DXAT}\right)$,其中 $D$ 表示马尔科夫决策过程的直径,$X$ 表示状态空间的大小,$A$ 表示动作空间的大小,$T$ 表示时间步数
→
PDF
2 months ago
Prev
Next