适应性干预学习策略：在预防保健中应用于不稳定赌博机

IJCAIMay, 2021

适应性干预学习策略：在预防保健中应用于不稳定赌博机

Learn to Intervene: An Adaptive Learning Policy for Restless Bandits in Application to Preventive Healthcare

Arpita Biswas, Gaurav Aggarwal, Pradeep Varakantham, Milind Tambe

TL;DR研究了在公共卫生领域中，如何通过 Q-learning 基于 Whittle 指数的机制，解决患者逐渐脱离健康项目的问题。

Abstract

In many public health settings, it is important for patients to adhere to health programs, such as taking medications and periodic health checks. Unfortunately, beneficiaries may gradually disengage from such programs, which is detrimental to their health. A concrete example of gradual

public health adherence interventions multi-armed bandit q-learning

发现论文，激发创造

多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用

本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先前收集的母婴健康数据集，展示了其性能。

Feb, 2022

非马尔可夫世界中的有限资源分配：以母婴保健为例

提出了一种基于时间序列的多臂老虎机架构 (RMAB) 方法，用于调度低资源环境下的干预措施，以提高参与者的坚持和参与度，并在现实数据的实验中进行了验证。

May, 2023

高效的公共卫生干预规划基于分解式决策导向学习

优化受益人干预计划以提高干预效果的研究中，本文通过对残存的历史数据进行感知模型参数估计，提出了一种基于 Restless Multi-Armed Bandits 和 Decision-Focused Learning 的快速干预规划方法，实验证明该方法在速度和性能上优于现有方法。

Mar, 2024

乐观 Whittle 指数策略：动态赌博机的在线学习

该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。

May, 2022

折叠赌博算法及其在公共卫生干预中的应用

提出了一种新的无休止多臂赌博机设置 ——Collapsing Bandits，并在医疗保健领域中实现了应用，该算法使用何维特指数技术和阈值策略来优化可观察状态数量较少、不可观察状态数量较多的多臂赌博机问题，评估了算法在多种数据分布上的性能。

Jul, 2020

部署不安静多臂赌博机的现场研究：帮助非营利组织改善母婴健康

本文介绍了一种利用 Restless Multi-Armed Bandits (RMABs) 系统辅助非营利组织提供预防保健信息的方法，其中 RMABs 群组最终降低了约 30％的参与度下降。

Sep, 2021

有限时间和流式无休止多臂赌博机问题的高效算法

提出了 “Streaming Bandits” 框架，该框架为不安宁的多臂赌博机问题，其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题，同时提供了一个新颖而高效的算法来计算 Whittle 索引解。

Mar, 2021

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

公共卫生中动态不休、多臂老虎机任务的决策语言模型（DLM）

通过使用自然语言命令，提出了一种动态调整政策结果的决策语言模型 (DLM)，该模型能够适应具有挑战性的公共卫生环境中的人流量调度任务。

Feb, 2024

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010