具有正外部性的网络无休止赌博问题

AAAIDec, 2022

具有正外部性的网络无休止赌博问题

Networked Restless Bandits with Positive Externalities

Christine Herlihy, John P. Dickerson

TL;DR该论文介绍了一种新型多臂赌博机网络建模方法，以探索资源分配中直接与间接受益的影响，并提出一种 Whittle 指数启发式算法来实现收益最大化的优化性行为部署。经实证，该算法在各超参数和拓扑结构条件下均有明显优势。

Abstract

Restless multi-armed bandits are often used to model budget-constrained resource allocation tasks where receipt of the resource is associated with an increased probability of a favorable state transition. Prior work assumes that individual arms only benefit if they receive the resource

restless bandits resource allocation direct/indirect benefit network modeling optimization

发现论文，激发创造

多臂赌博机中的全局奖励

提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题，并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明，该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。

Jun, 2024

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

休息和不休息赌博机的在线学习

本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题，在每个时间步骤，用户可以玩 M 支手臂，其目标是决定每一步要播放哪些 K 支手臂，以在一系列试验中最大化其长期奖励，尤其与机会式频谱接入（OSA）的应用相关。

Feb, 2011

一伙强盗

本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题，该算法对每个网络节点（用户）分配了一个 Bandit 算法，并允许其与相邻节点共享信息，与传统 Contextual Bandit 方法相比，实验结果表明该算法在预测性能方面有显著提高。

Jun, 2013

一种基于指标的无休止赌博任务分配策略：为拉动机械臂工人争取公平

本文研究在资源受限条件下随机过程的干预规划问题，并提出了一种解决异构工人的多工人多臂不懈赌博机问题的方法。通过开发基于指标的调度策略和 Whittle 指数的多工人扩展，实现公平性和高收益的干预计划。最后的实验结果表明，该方法在公平性方面表现优异，而在奖励积累方面只有轻微的牺牲。

Mar, 2023

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

分散式随机多人多臂行走赌博机

提出了一种解决多人多臂赌博机问题的分布式算法，利用上置信区间和分布式优化技术，解决了现实世界应用中玩家仅能访问动态局部子集的问题，并获得了接近最优的后悔率。

Dec, 2022

有限状态不等式多臂赌博机和 Rollout 策略的可索引性

通过拉格朗日松弛和 Whittle 指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。

Apr, 2023

具上下文的无休止多臂赌博机在需求响应决策中的应用

介绍了一种新的多臂赌博机框架 —— 上下文不安定赌博机（CRB），用于复杂的在线决策。该 CRB 框架结合了上下文赌博机和不安定赌博机的核心特征，可以模拟每个臂的内部状态转换以及外部全局环境上下文的影响。使用双重分解方法，我们开发了一个可扩展的指标策略算法来解决 CRB 问题，并对该算法的渐近最优性进行了理论分析。在臂模型未知的情况下，我们进一步提出了一种基于指标策略的基于模型的在线学习算法，同时学习臂模型和做出决策。此外，我们将所提出的 CRB 框架和指标策略算法专门应用于智能电网中的需求响应决策问题。数值模拟实验证明了我们所提出的 CRB 方法的性能和效率。

Mar, 2024

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010