基于置信区间和不安定多臂赌博模型的感知策略

Nov, 2012

基于置信区间和不安定多臂赌博模型的感知策略

A Sensing Policy Based on Confidence Bounds and a Restless Multi-Armed Bandit Model

Jan Oksanen, Visa Koivunen, H. Vincent Poor

TL;DR在认知无线电中，提出了一种对于具有不同但未知奖励分布的多臂赌博问题的感知策略。该策略是一个集中协调的索引策略，其中频带的索引由一个样本均值项和一个置信项组成，使得子优频段之间连续感知的时间间隔成指数增长，导致弱后悔值对数增长。仿真结果表明，该策略优于文献中的其他类似方法。

Abstract

A sensing policy for the restless multi-armed bandit problem with stationary but unknown reward distributions is proposed. The work is presented in the context of cognitive radios in which the bandit problem aris

multi-armed bandit problem cognitive radios index policy exploitation exploration

发现论文，激发创造

认知无线电网络中利用空闲频谱的最优订单策略

本文提出了一种基于最近性探索的频谱感知策略，用于认知无线电网络中的多频带动态频谱访问，并且在频带动态的 Gilbert-Elliot 模型下，该策略指数化维护了频带的状态，并且能够在低复杂度下比其他现有的政策提供更好的性能。

Sep, 2017

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

随机多臂赌博问题的遗憾下界和拓展上置信界策略

通过对经典多臂赌博机（Stochastic Multi-Armed Bandit）的研究，探讨了两种不同的准则下存在的遗憾下界。同时，研究了 UCB 等算法的变体，证明了这种情况下不可能设计一种自适应的策略来选择最优算法。

Dec, 2011

非贝叶斯不平静多臂赌博问题：近对数遗憾情形

该研究提出了一种适用于无贝叶斯假设的多臂老虎机问题求解方法，该方法可以在非贝叶斯假设且马尔可夫链参数未知时，通过元策略学习最优策略，并在未知动态信道的机会式频谱访问问题中取得了接近对数级的损失值，是该问题领域内的首个实现此类结果。

Nov, 2010

具有时间性的多臂赌博机问题中汤普森抽样的遗憾界

本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题，在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者，证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活，可以表示各种基准，包括最佳固定操作策略，最优策略，惠特尔指数策略或近视策略。同时，还提供了支持理论发现的实证结果。

May, 2019

有限时间内动态赌博机渐近最优指数策略

该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略，利用模拟证明其表现优于现有启发式方法。

Jul, 2017

具有习惯化和恢复动态的非静态赌徒问题

提出了 ROGUE（Reducing or Gaining Unknown Efficacy）类模型及其算法 ROGUE-UCB，可捕捉到具有非稳态现象的问题模型，经实验证明优于现有算法并应用于个性化医疗干预以增加身体活动。

Jul, 2017

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

用于机会式频谱接入的分散式在线学习算法

本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题，提出去中心化多臂赌博问题，并设计出一种去中心化的在线学习策略，以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中，分别考虑了优先级排序和公平访问策略。

Apr, 2011