机会主义频谱接入中的在线学习：一种不稳定赌博机方法

Oct, 2010

机会主义频谱接入中的在线学习：一种不稳定赌博机方法

Online Learning in Opportunistic Spectrum Access: A Restless Bandit Approach

Cem Tekin, Mingyan Liu

TL;DR本文介绍了一种利用 Markov 链的再生周期计算基于样本均值的索引策略的算法，证明了在马尔可夫链状态转移概率有渐进周期性且保持足够的多样性的情况下，该算法在时间上一致地实现对数遗憾，并且证明了该遗憾阈值也是最优的。

Abstract

We consider an opportunistic spectrum access (OSA) problem where the time-varying condition of each channel (e.g., as a result of random fading or certain primary users' activities) is modeled as an arbitrary finite-state →

opportunistic spectrum access markov chain online learning algorithm regenerative cycles logarithmic regret

发现论文，激发创造

休息和不休息赌博机的在线学习

本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题，在每个时间步骤，用户可以玩 M 支手臂，其目标是决定每一步要播放哪些 K 支手臂，以在一系列试验中最大化其长期奖励，尤其与机会式频谱接入（OSA）的应用相关。

Feb, 2011

多通道机会式接入：多次播放的不安定赌博模型

本文研究了随机控制问题在机会式频谱访问中的应用，提出了设计一种通道选择策略，以最大化预期折扣总报酬为目标，将问题与该类问题现有文献进行了讨论。

Oct, 2009

用于机会式频谱接入的分散式在线学习算法

本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题，提出去中心化多臂赌博问题，并设计出一种去中心化的在线学习策略，以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中，分别考虑了优先级排序和公平访问策略。

Apr, 2011

制度转换赌徒

本文介绍了一种多臂赌博机问题，其中奖励表现出制度切换，提出了一种在线学习算法，并对算法进行了性能检验和分析。

Jan, 2020

认知无线电网络中利用空闲频谱的最优订单策略

本文提出了一种基于最近性探索的频谱感知策略，用于认知无线电网络中的多频带动态频谱访问，并且在频带动态的 Gilbert-Elliot 模型下，该策略指数化维护了频带的状态，并且能够在低复杂度下比其他现有的政策提供更好的性能。

Sep, 2017

具有习惯化和恢复动态的非静态赌徒问题

提出了 ROGUE（Reducing or Gaining Unknown Efficacy）类模型及其算法 ROGUE-UCB，可捕捉到具有非稳态现象的问题模型，经实验证明优于现有算法并应用于个性化医疗干预以增加身体活动。

Jul, 2017

分布式动态频谱访问的深度多用户强化学习

研究动态频谱访问、网络效用最大化和分布式动态频谱访问算法，基于深度多用户强化学习，开发解决方案，并在多信道无线网络中进行实验评估。

Apr, 2017

异构网络最优分配的多玩家多臂赌博机

针对多个用户访问相同频道的自组织网络，本研究在缺乏中央协调时，使用探索和承诺策略，通过传输和感知信息的方式，实现接近最优的频道分配，进而提高网络吞吐量，同时击败了现有的算法。

Jan, 2019

多通道机会式接入的近视感知：结构、最优性和性能

本文研究多通道机会通信系统中的感知政策问题，建立了一种简单且具有鲁棒性的方法来减少通道选择的成本，并且在数值结果的基础上，探究了该方法的性能及其与通道数的相关性，最终得到一个熵理论的定界，这既适用于认知无线电网络，也适用于衰落环境中的机会传输和资源受限的干扰和抗干扰。

Dec, 2007

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010