多臂赌博机及其在 5G 小区应用中的应用
本文探讨了多层次反馈的多人多臂老虎机算法,并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示,引入这些方法可以提高算法的性能并保证其渐近最优,降低拥堵的可能性。
Nov, 2017
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上学习算法的性能下界,为实际应用不同算法提供了实用性建议。
Nov, 2020
本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题,并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法,该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。
Nov, 2021
本论文提出了一种基于多臂赌博机和 DDSBS 操作的 TDMA MAC 时隙分配协议,实现无冲突传输和提高带宽利用效率。通过广泛的模拟实验,表明该机制适用于具有或不具有时间同步的网络,可以在学习收敛时间和带宽之间做出平衡,并允许节点适应拓扑变化。
Jan, 2023
提出了两种多用户多臂赌博机算法框架,分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下,通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误,并能够处理用户数量随时间改变的动态问题。
Jul, 2018
本文提出了基于多臂赌博机的算法来优化超密集网络中利用授权、共享和非授权频段通信时的信令开销,实现有限时间内的稳定正交分配,降低复杂度,适应动态网络环境。
Dec, 2018
针对多个用户访问相同频道的自组织网络,本研究在缺乏中央协调时,使用探索和承诺策略,通过传输和感知信息的方式,实现接近最优的频道分配,进而提高网络吞吐量,同时击败了现有的算法。
Jan, 2019
研究一种多接入无线网络,并探讨基于不确定的能量收获过程和电池状态的调度策略,旨在实现最大总吞吐量,并将问题确定为无休止多臂匪徒问题,通过对某些能量收获过程和电池大小的假设,证明了视野短浅的决策策略的最优性和数字化的性能。
Jan, 2015
该研究在未知用户偏好情况下,探究了学习型缓存在小型蜂窝网络(SCN)中的应用。在这个问题中,我们从多智能体多武器老虎机(MAMAB)的角度模拟这个序列决策问题。我们提出几种 MAMAB-Based 算法,在静态和非静态环境下直接学习缓存策略,以实现最小化系统长期传输延迟的目标。该研究验证了所提出的算法的有效性,并进一步讨论了不同参数对缓存性能的影响。
Jan, 2020