BriefGPT.xyz
Ask
alpha
关键词
optimal local control routine
搜索结果 - 1
何时可以在平均回报无休止赌博中达到指数渐近最优性?
我们提出了一种新的策略,该策略通过维护两个动态武器子集来解决离散时间无限视界平均奖励不安定强盗问题,其中一个子集具有近乎最优的状态分布并根据最优局部控制例程采取行动;另一个子集被驱向最优状态分布并逐渐合并到第一个子集中。我们证明了我们的策略
→
PDF
a month ago
Prev
Next