restless multi-armed bandits | BriefGPT

关键词restless multi-armed bandits

搜索结果 - 14

一种用于合作资源分配的联合在线不安分强盗框架
使用联邦学习范式，本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案，该算法在通信和计算效率上具有较高水平并提供隐私
PDF24 days ago
多臂赌博机中的全局奖励
提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题，并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明，该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。
PDFa month ago
ICML可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈
通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑
PDF2 months ago
高效的公共卫生干预规划基于分解式决策导向学习
优化受益人干预计划以提高干预效果的研究中，本文通过对残存的历史数据进行感知模型参数估计，提出了一种基于 Restless Multi-Armed Bandits 和 Decision-Focused Learning 的快速干预规划方法，实
PDF4 months ago
在线多臂赌博机的曝光公平性
通过建立公平的多臂赌博机框架，考虑离线和在线情形中的不公平问题，本论文证明了算法在单次选取情况下的次线性公平后悔度，并在实证中展示了在多次选取场景中算法的良好表现。
PDF5 months ago
基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生
基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。
PDF5 months ago
具有长期公平约束的在线不安定多臂赌博机
我们介绍了一种名为 RMAB-F 的新的多臂老虎机模型，它具有长期公平约束；并开发了一种名为 Fair-UCRL 的强化学习算法，证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。
PDF7 months ago
基于 Whittle 指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习
基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题，通过耦合两个时间尺度的 Q - 函数和 Whittle 指数，提供了 Neueral-Q-Whittle 的收
PDF9 months ago
公平的不竭多臂赌博机：受数字健康启发的通用框架
基于需求紧迫性的研究发现，从公平性文献中提取的两个公平性目标，最小最大奖励和最大纳什福利，分别通过水充实算法和平衡不同群体大小的贪婪算法进行高效求解，在三个模拟领域中展示了比现有技术更加公平，而对效用几乎没有牺牲的结果。
PDFa year ago
指数可索引性对 Whittle 算法不足：无静止赌博机改进的近似最优算法
本论文探讨了不安定多臂赌博机的规划问题，提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析，该算法在实际应用中表现优异且无需外部超参数。
PDF2 years ago
针对不安定多臂赌博机的软公平性探讨
本文提出了一种 RMAB 的方法，称为 SoftFair，旨在强制实现软公平约束条件，该约束条件要求算法在选择 RMAB 中的每个项时都不能倾向于一个项，目的是避免在执行干预时出现某些区域或社区被忽略的情况。
PDF2 years ago
AAAI乐观 Whittle 指数策略：动态赌博机的在线学习
该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。
PDF2 years ago
多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用
本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先
PDF2 years ago
KDD基于 Q-Learning 拉格朗日策略的多动作不平衡赌博机
本研究提出了两种新算法： MAIQL 和 LPQL，分别使用拉格朗日松弛和 Q-learning 来学习多操作 RMABs 的最佳策略，实现了资源的有限分配，此策略是渐近最优的。研究表明，这两种方法始终优于基准设置，包括从真实世界的药物依从
PDF3 years ago