Nov, 2012

基于置信区间和不安定多臂赌博模型的感知策略

TL;DR在认知无线电中,提出了一种对于具有不同但未知奖励分布的多臂赌博问题的感知策略。该策略是一个集中协调的索引策略,其中频带的索引由一个样本均值项和一个置信项组成,使得子优频段之间连续感知的时间间隔成指数增长,导致弱后悔值对数增长。仿真结果表明,该策略优于文献中的其他类似方法。