BriefGPT.xyz
Ask
alpha
关键词
sample path expectations
搜索结果 - 1
马尔科夫决策过程中基于对手选择转移概率分布的在线学习
研究了在转换概率分布和损失函数是对手选择并随时间变化时,如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法,如果转换概率满足均匀混合条件,则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为
→
PDF
11 years ago
Prev
Next