多通道机会式接入：多次播放的不安定赌博模型

MMOct, 2009

多通道机会式接入：多次播放的不安定赌博模型

Multi-channel Opportunistic Access: A Case of Restless Bandits with Multiple Plays

Sahand Haji Ali Ahmad, Mingyan Liu

TL;DR本文研究了随机控制问题在机会式频谱访问中的应用，提出了设计一种通道选择策略，以最大化预期折扣总报酬为目标，将问题与该类问题现有文献进行了讨论。

Abstract

This paper considers the following stochastic control problem that arises in opportunistic spectrum access: a system consists of n channels (Gilbert-Elliot channels)where the state (good or bad) of each channel e

stochastic control opportunistic spectrum access markov processes channel selection policy restless bandit problem

发现论文，激发创造

机会主义频谱接入中的在线学习：一种不稳定赌博机方法

本文介绍了一种利用 Markov 链的再生周期计算基于样本均值的索引策略的算法，证明了在马尔可夫链状态转移概率有渐进周期性且保持足够的多样性的情况下，该算法在时间上一致地实现对数遗憾，并且证明了该遗憾阈值也是最优的。

Oct, 2010

多通道机会式接入的近视感知：结构、最优性和性能

本文研究多通道机会通信系统中的感知政策问题，建立了一种简单且具有鲁棒性的方法来减少通道选择的成本，并且在数值结果的基础上，探究了该方法的性能及其与通道数的相关性，最终得到一个熵理论的定界，这既适用于认知无线电网络，也适用于衰落环境中的机会传输和资源受限的干扰和抗干扰。

Dec, 2007

休息和不休息赌博机的在线学习

本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题，在每个时间步骤，用户可以玩 M 支手臂，其目标是决定每一步要播放哪些 K 支手臂，以在一系列试验中最大化其长期奖励，尤其与机会式频谱接入（OSA）的应用相关。

Feb, 2011

异构网络最优分配的多玩家多臂赌博机

针对多个用户访问相同频道的自组织网络，本研究在缺乏中央协调时，使用探索和承诺策略，通过传输和感知信息的方式，实现接近最优的频道分配，进而提高网络吞吐量，同时击败了现有的算法。

Jan, 2019

分布式动态频谱访问的深度多用户强化学习

研究动态频谱访问、网络效用最大化和分布式动态频谱访问算法，基于深度多用户强化学习，开发解决方案，并在多信道无线网络中进行实验评估。

Apr, 2017

用于机会式频谱接入的分散式在线学习算法

本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题，提出去中心化多臂赌博问题，并设计出一种去中心化的在线学习策略，以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中，分别考虑了优先级排序和公平访问策略。

Apr, 2011

多用户多臂老虎机用于协调频谱接入

提出了两种多用户多臂赌博机算法框架，分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下，通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误，并能够处理用户数量随时间改变的动态问题。

Jul, 2018

认知无线电网络中利用空闲频谱的最优订单策略

本文提出了一种基于最近性探索的频谱感知策略，用于认知无线电网络中的多频带动态频谱访问，并且在频带动态的 Gilbert-Elliot 模型下，该策略指数化维护了频带的状态，并且能够在低复杂度下比其他现有的政策提供更好的性能。

Sep, 2017

基于能量收割的多接入通信：多臂赌博机模型与短视策略的最优性

研究一种多接入无线网络，并探讨基于不确定的能量收获过程和电池状态的调度策略，旨在实现最大总吞吐量，并将问题确定为无休止多臂匪徒问题，通过对某些能量收获过程和电池大小的假设，证明了视野短浅的决策策略的最优性和数字化的性能。

Jan, 2015

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007