无眠多臂赌博中的零样本学习

Oct, 2023

Towards Zero Shot Learning in Restless Multi-armed Bandits

Yunfan Zhao, Nikhil Behari, Edward Hughes, Edwin Zhang, Dheeraj Nagaraj...

TL;DR提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Abstract

restless multi-arm bandits (RMABs), a class of resource allocation problems with broad application in areas such as healthcare, online advertising, and anti-poaching, have recently been studied from a multi-agent reinforcement learning perspective. Prior RMAB research suffers from seve

restless multi-arm bandits neural network-based pre-trained model general zero-shot ability fine-tuned reinforcement learning

发现论文，激发创造

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

一种用于合作资源分配的联合在线不安分强盗框架

使用联邦学习范式，本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案，该算法在通信和计算效率上具有较高水平并提供隐私保证，并在在线多用户多信道访问案例中展示了快速收敛率和比基准方法更好的性能。值得注意的是，该算法的样本复杂度随代理数量而减少。

Jun, 2024

基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生

基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。

Feb, 2024

具有长期公平约束的在线不安定多臂赌博机

我们介绍了一种名为 RMAB-F 的新的多臂老虎机模型，它具有长期公平约束；并开发了一种名为 Fair-UCRL 的强化学习算法，证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。

Dec, 2023

非贝叶斯不平静多臂赌博问题：近对数遗憾情形

该研究提出了一种适用于无贝叶斯假设的多臂老虎机问题求解方法，该方法可以在非贝叶斯假设且马尔可夫链参数未知时，通过元策略学习最优策略，并在未知动态信道的机会式频谱访问问题中取得了接近对数级的损失值，是该问题领域内的首个实现此类结果。

Nov, 2010

在线多臂赌博机的曝光公平性

通过建立公平的多臂赌博机框架，考虑离线和在线情形中的不公平问题，本论文证明了算法在单次选取情况下的次线性公平后悔度，并在实证中展示了在多次选取场景中算法的良好表现。

Feb, 2024

多臂赌博机中的全局奖励

提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题，并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明，该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。

Jun, 2024

针对不安定多臂赌博机的软公平性探讨

本文提出了一种 RMAB 的方法，称为 SoftFair，旨在强制实现软公平约束条件，该约束条件要求算法在选择 RMAB 中的每个项时都不能倾向于一个项，目的是避免在执行干预时出现某些区域或社区被忽略的情况。

Jul, 2022

有限时间和流式无休止多臂赌博机问题的高效算法

提出了 “Streaming Bandits” 框架，该框架为不安宁的多臂赌博机问题，其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题，同时提供了一个新颖而高效的算法来计算 Whittle 索引解。

Mar, 2021