机会主义频谱接入中的在线学习:一种不稳定赌博机方法
本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题,在每个时间步骤,用户可以玩 M 支手臂,其目标是决定每一步要播放哪些 K 支手臂,以在一系列试验中最大化其长期奖励,尤其与机会式频谱接入(OSA)的应用相关。
Feb, 2011
本文研究了随机控制问题在机会式频谱访问中的应用,提出了设计一种通道选择策略,以最大化预期折扣总报酬为目标,将问题与该类问题现有文献进行了讨论。
Oct, 2009
本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题,提出去中心化多臂赌博问题,并设计出一种去中心化的在线学习策略,以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中,分别考虑了优先级排序和公平访问策略。
Apr, 2011
本文提出了一种基于最近性探索的频谱感知策略,用于认知无线电网络中的多频带动态频谱访问,并且在频带动态的 Gilbert-Elliot 模型下,该策略指数化维护了频带的状态,并且能够在低复杂度下比其他现有的政策提供更好的性能。
Sep, 2017
提出了 ROGUE(Reducing or Gaining Unknown Efficacy)类模型及其算法 ROGUE-UCB,可捕捉到具有非稳态现象的问题模型,经实验证明优于现有算法并应用于个性化医疗干预以增加身体活动。
Jul, 2017
针对多个用户访问相同频道的自组织网络,本研究在缺乏中央协调时,使用探索和承诺策略,通过传输和感知信息的方式,实现接近最优的频道分配,进而提高网络吞吐量,同时击败了现有的算法。
Jan, 2019
本文研究多通道机会通信系统中的感知政策问题,建立了一种简单且具有鲁棒性的方法来减少通道选择的成本,并且在数值结果的基础上,探究了该方法的性能及其与通道数的相关性,最终得到一个熵理论的定界,这既适用于认知无线电网络,也适用于衰落环境中的机会传输和资源受限的干扰和抗干扰。
Dec, 2007
此篇研究考虑了一个名为不安定多臂赌博机问题的模型,提出了一种探索和利用并行局部的策略,使得在一定的系统参数有限制时,能够获得对数级次的回报,而在缺乏关于系统的任何信息时,能够获得接近对数水平的回报。同时,也将问题扩展到了多个分布式参与者共享资源的情况,并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。
Nov, 2010