本文介绍了一种利用 Markov 链的再生周期计算基于样本均值的索引策略的算法,证明了在马尔可夫链状态转移概率有渐进周期性且保持足够的多样性的情况下,该算法在时间上一致地实现对数遗憾,并且证明了该遗憾阈值也是最优的。
Oct, 2010
本文研究多通道机会通信系统中的感知政策问题,建立了一种简单且具有鲁棒性的方法来减少通道选择的成本,并且在数值结果的基础上,探究了该方法的性能及其与通道数的相关性,最终得到一个熵理论的定界,这既适用于认知无线电网络,也适用于衰落环境中的机会传输和资源受限的干扰和抗干扰。
Dec, 2007
本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题,在每个时间步骤,用户可以玩 M 支手臂,其目标是决定每一步要播放哪些 K 支手臂,以在一系列试验中最大化其长期奖励,尤其与机会式频谱接入(OSA)的应用相关。
Feb, 2011
针对多个用户访问相同频道的自组织网络,本研究在缺乏中央协调时,使用探索和承诺策略,通过传输和感知信息的方式,实现接近最优的频道分配,进而提高网络吞吐量,同时击败了现有的算法。
Jan, 2019
研究动态频谱访问、网络效用最大化和分布式动态频谱访问算法,基于深度多用户强化学习,开发解决方案,并在多信道无线网络中进行实验评估。
Apr, 2017
本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题,提出去中心化多臂赌博问题,并设计出一种去中心化的在线学习策略,以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中,分别考虑了优先级排序和公平访问策略。
Apr, 2011
提出了两种多用户多臂赌博机算法框架,分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下,通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误,并能够处理用户数量随时间改变的动态问题。
Jul, 2018
本文提出了一种基于最近性探索的频谱感知策略,用于认知无线电网络中的多频带动态频谱访问,并且在频带动态的 Gilbert-Elliot 模型下,该策略指数化维护了频带的状态,并且能够在低复杂度下比其他现有的政策提供更好的性能。
Sep, 2017
研究一种多接入无线网络,并探讨基于不确定的能量收获过程和电池状态的调度策略,旨在实现最大总吞吐量,并将问题确定为无休止多臂匪徒问题,通过对某些能量收获过程和电池大小的假设,证明了视野短浅的决策策略的最优性和数字化的性能。
Jan, 2015
讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题,开发出了一种新颖并且通用的双重算法技术,可为不少于 1+epsilon 的解提供 2+epsilon 的近似值,这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。
Nov, 2007