赌博机的窃语者：为不安静的赌博机学习通信

Aug, 2024

赌博机的窃语者：为不安静的赌博机学习通信

The Bandit Whisperer: Communication Learning for Restless Bandits

Yunfan Zhao, Tonghan Wang, Dheeraj Nagaraj, Aparna Taneja, Milind Tambe

TL;DR本研究解决了在资源有限和时间动态的情况下，不安静多臂赌博机(RMABs)模型中经典方法忽视的系统性数据错误问题。我们提出了首个针对RMABs的通信学习方法，通过有效的臂之间的信息交流，显著提升了模型在面对数据错误时的表现，证实了通信策略在优化决策中的贡献。

Abstract

Applying Reinforcement Learning (RL) to Restless Multi-Arm Bandits (RMABs) offers a promising avenue for addressing allocation problems with resource constraints and temporal dynamics. However, classic RMAB models largely overlook the challenges of (systematic) →

发现论文，激发创造

在不断变化的世界中学习: 具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

非贝叶斯不平静多臂赌博问题：近对数遗憾情形

该研究提出了一种适用于无贝叶斯假设的多臂老虎机问题求解方法，该方法可以在非贝叶斯假设且马尔可夫链参数未知时，通过元策略学习最优策略，并在未知动态信道的机会式频谱访问问题中取得了接近对数级的损失值，是该问题领域内的首个实现此类结果。

Nov, 2010

休息和不休息赌博机的在线学习

本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题，在每个时间步骤，用户可以玩M支手臂，其目标是决定每一步要播放哪些K支手臂，以在一系列试验中最大化其长期奖励，尤其与机会式频谱接入（OSA）的应用相关。

Feb, 2011

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂ID来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至$O(logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

基于Q-Learning拉格朗日策略的多动作不平衡赌博机

本研究提出了两种新算法： MAIQL和LPQL，分别使用拉格朗日松弛和Q-learning 来学习多操作 RMABs 的最佳策略，实现了资源的有限分配，此策略是渐近最优的。研究表明，这两种方法始终优于基准设置，包括从真实世界的药物依从性数据派生的设置。

Jun, 2021

有限时段不静态多臂多动作赌博机的强化学习

本文研究的是带有多动作的有限时间不安定多臂赌博机问题，提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R(MA)^2B-UCB，相比现有算法在遗憾和运算量等方面表现更佳。

Sep, 2021

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法QuBan的通信高效的多臂老虎机算法，该算法只需要每次发送3位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号T的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

GINO-Q：学习一种渐近最优的索引策略用于无休止多臂老虎机

本研究解决了无休止多臂老虎机（RMAB）中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法，该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略，从而避免维度诅咒。实验结果表明，GINO-Q在非索引able RMABs中表现出色，学习到的策略接近最优，且收敛速度明显快于现有基线。

Aug, 2024