多臂赌博机中的全局奖励

Jun, 2024

Global Rewards in Restless Multi-Armed Bandits

Naveen Raman, Ryan Shi, Fei Fang

TL;DR提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题，并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明，该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。

Abstract

restless multi-armed bandits (RMAB) extend multi-armed bandits so pulling an arm impacts future states. Despite the success of RMABs, a key limiting assumption is the separability of rewards into a sum across arms. We address this deficiency by proposing restless-multi-armed bandit wit

restless multi-armed bandits global rewards linear- and shapley-whittle indices adaptive policies monte-carlo tree search

发现论文，激发创造

在线多臂赌博机的曝光公平性

通过建立公平的多臂赌博机框架，考虑离线和在线情形中的不公平问题，本论文证明了算法在单次选取情况下的次线性公平后悔度，并在实证中展示了在多次选取场景中算法的良好表现。

Feb, 2024

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

具有长期公平约束的在线不安定多臂赌博机

我们介绍了一种名为 RMAB-F 的新的多臂老虎机模型，它具有长期公平约束；并开发了一种名为 Fair-UCRL 的强化学习算法，证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。

Dec, 2023

针对不安定多臂赌博机的软公平性探讨

本文提出了一种 RMAB 的方法，称为 SoftFair，旨在强制实现软公平约束条件，该约束条件要求算法在选择 RMAB 中的每个项时都不能倾向于一个项，目的是避免在执行干预时出现某些区域或社区被忽略的情况。

Jul, 2022

公平的不竭多臂赌博机：受数字健康启发的通用框架

基于需求紧迫性的研究发现，从公平性文献中提取的两个公平性目标，最小最大奖励和最大纳什福利，分别通过水充实算法和平衡不同群体大小的贪婪算法进行高效求解，在三个模拟领域中展示了比现有技术更加公平，而对效用几乎没有牺牲的结果。

Aug, 2023

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用

本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先前收集的母婴健康数据集，展示了其性能。

Feb, 2022

有限时间和流式无休止多臂赌博机问题的高效算法

提出了 “Streaming Bandits” 框架，该框架为不安宁的多臂赌博机问题，其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题，同时提供了一个新颖而高效的算法来计算 Whittle 索引解。

Mar, 2021

具有正外部性的网络无休止赌博问题

该论文介绍了一种新型多臂赌博机网络建模方法，以探索资源分配中直接与间接受益的影响，并提出一种 Whittle 指数启发式算法来实现收益最大化的优化性行为部署。经实证，该算法在各超参数和拓扑结构条件下均有明显优势。

Dec, 2022