BriefGPT.xyz
Ask
alpha
关键词
ducrl2 algorithm
搜索结果 - 1
延迟、组合和部分匿名回报的强化学习
本文研究了具有延迟、组合和部分匿名奖励反馈的无限期望回报马尔可夫决策过程,并提出了名为 DUCRL2 的算法来获得近似最优策略,并证明其达到了类似于 ODS 的遗憾界。
PDF
a year ago
Prev
Next