多臂赌博机及其在 5G 小区应用中的应用

Oct, 2015

多臂赌博机及其在 5G 小区应用中的应用

Multi-armed Bandits with Application to 5G Small Cells

Setareh Maghsudi, Ekram Hossain

TL;DR本文主要介绍了利用多臂赌博机（MAB）算法解决 5G 网络资源配置问题的方法，并且对其应用于小型基站规划实现能源效率的案例进行了详细讨论。

Abstract

Due to the pervasive demand for mobile services, next generation wireless networks are expected to be able to deliver high date rates while wireless resources become more and more scarce. This requires the next generation wireless networks to move towards new networking paradigms that are able to efficiently support resource-demanding applications such as pe

5g networks resource allocation multi-armed bandit framework small cell planning energy efficiency

发现论文，激发创造

多臂赌博机与情境赌博机的实际应用调查

该研究详细回顾了多臂赌博框架在各种应用领域上的最新前沿发展，例如推荐系统、信息检索、医疗保健和金融等，同时提供了未来该领域的重要趋势和新视角。

Apr, 2019

多人赌博机问题再探

本文探讨了多层次反馈的多人多臂老虎机算法，并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示，引入这些方法可以提高算法的性能并保证其渐近最优，降低拥堵的可能性。

Nov, 2017

成本补贴的多臂老虎机

本研究考虑了一种新颖的多臂赌博机问题（MAB with cost subsidy），为了优化累积的成本和收益，学习机构必须支付选择的手臂成本，针对这种问题，我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟，最后建立了任何线上学习算法的性能下界，为实际应用不同算法提供了实用性建议。

Nov, 2020

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法，该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

基于多臂赌博机的 TDMA 传输时隙调度和碎片整理用于提高带宽利用率

本论文提出了一种基于多臂赌博机和 DDSBS 操作的 TDMA MAC 时隙分配协议，实现无冲突传输和提高带宽利用效率。通过广泛的模拟实验，表明该机制适用于具有或不具有时间同步的网络，可以在学习收敛时间和带宽之间做出平衡，并允许节点适应拓扑变化。

Jan, 2023

多用户多臂老虎机用于协调频谱接入

提出了两种多用户多臂赌博机算法框架，分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下，通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误，并能够处理用户数量随时间改变的动态问题。

Jul, 2018

异构自组织网络中的稳定分配多人多臂赌博机

本文提出了基于多臂赌博机的算法来优化超密集网络中利用授权、共享和非授权频段通信时的信令开销，实现有限时间内的稳定正交分配，降低复杂度，适应动态网络环境。

Dec, 2018

异构网络最优分配的多玩家多臂赌博机

针对多个用户访问相同频道的自组织网络，本研究在缺乏中央协调时，使用探索和承诺策略，通过传输和感知信息的方式，实现接近最优的频道分配，进而提高网络吞吐量，同时击败了现有的算法。

Jan, 2019

基于能量收割的多接入通信：多臂赌博机模型与短视策略的最优性

研究一种多接入无线网络，并探讨基于不确定的能量收获过程和电池状态的调度策略，旨在实现最大总吞吐量，并将问题确定为无休止多臂匪徒问题，通过对某些能量收获过程和电池大小的假设，证明了视野短浅的决策策略的最优性和数字化的性能。

Jan, 2015

小区缓存的协作多智体多臂赌博学习

该研究在未知用户偏好情况下，探究了学习型缓存在小型蜂窝网络（SCN）中的应用。在这个问题中，我们从多智能体多武器老虎机（MAMAB）的角度模拟这个序列决策问题。我们提出几种 MAMAB-Based 算法，在静态和非静态环境下直接学习缓存策略，以实现最小化系统长期传输延迟的目标。该研究验证了所提出的算法的有效性，并进一步讨论了不同参数对缓存性能的影响。

Jan, 2020