Oct, 2010

机会主义频谱接入中的在线学习:一种不稳定赌博机方法

TL;DR本文介绍了一种利用 Markov 链的再生周期计算基于样本均值的索引策略的算法,证明了在马尔可夫链状态转移概率有渐进周期性且保持足够的多样性的情况下,该算法在时间上一致地实现对数遗憾,并且证明了该遗憾阈值也是最优的。