基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生

Feb, 2024

基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生

A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health

Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson

TL;DR基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。

Abstract

restless multi-armed bandits (RMABs) are used to model sequential resource allocation in public health intervention programs. In these settings, the underlying transition dynamics are often unknown a priori, requ

restless multi-armed bandits online reinforcement learning bayesian modeling thompson sampling public health intervention

发现论文，激发创造

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

具上下文的无休止多臂赌博机在需求响应决策中的应用

介绍了一种新的多臂赌博机框架 —— 上下文不安定赌博机（CRB），用于复杂的在线决策。该 CRB 框架结合了上下文赌博机和不安定赌博机的核心特征，可以模拟每个臂的内部状态转换以及外部全局环境上下文的影响。使用双重分解方法，我们开发了一个可扩展的指标策略算法来解决 CRB 问题，并对该算法的渐近最优性进行了理论分析。在臂模型未知的情况下，我们进一步提出了一种基于指标策略的基于模型的在线学习算法，同时学习臂模型和做出决策。此外，我们将所提出的 CRB 框架和指标策略算法专门应用于智能电网中的需求响应决策问题。数值模拟实验证明了我们所提出的 CRB 方法的性能和效率。

Mar, 2024

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

非马尔可夫世界中的有限资源分配：以母婴保健为例

提出了一种基于时间序列的多臂老虎机架构 (RMAB) 方法，用于调度低资源环境下的干预措施，以提高参与者的坚持和参与度，并在现实数据的实验中进行了验证。

May, 2023

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

一种用于合作资源分配的联合在线不安分强盗框架

使用联邦学习范式，本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案，该算法在通信和计算效率上具有较高水平并提供隐私保证，并在在线多用户多信道访问案例中展示了快速收敛率和比基准方法更好的性能。值得注意的是，该算法的样本复杂度随代理数量而减少。

Jun, 2024

乐观 Whittle 指数策略：动态赌博机的在线学习

该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。

May, 2022

基于合作上下文臂银行算法的分布式在线学习

本文提出了一种新的分布式在线学习框架，将学习者建模为合作的情境赌博机，分析了分布式在线学习算法和完全知识基准的效率，研究表明后者在时间上失误是亚线性的，该理论框架可用于许多实际应用中，包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。

Aug, 2013

多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用

本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先前收集的母婴健康数据集，展示了其性能。

Feb, 2022

基于行动中心的上下文分组赌博机算法

为延伸时间不变线性模型假设限制，我们提出了一种上下文 Bandits 的线性模型扩展，该模型具有基线奖励和处理效应两个部分，并已在移动健康研究中做了实验证明其有效性。

Nov, 2017