乐观 Whittle 指数策略:动态赌博机的在线学习
本文提出了一种新颖的用于决策焦点学习的方法,该方法直接训练预测模型以最大化 Whittle 指数解的质量,应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机(RMAB)问题,并提高了在 RMAB 问题中的可扩展性,并将算法应用于先前收集的母婴健康数据集,展示了其性能。
Feb, 2022
本论文探讨了不安定多臂赌博机的规划问题,提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析,该算法在实际应用中表现优异且无需外部超参数。
Oct, 2022
研究了一类探索性多臂赌博问题,并通过建立指标化和获得 Whittle 指标,提高了 Whittle 指标策略的直接实施性,同时,研究发现 Whittle 指标策略与 “近视政策” 等价,因此具有半通用性,这导致 Whittle 指标策略是某些条件下最优的。同时,通过拉格朗日弛豫,开发了计算性能上限的有效算法,证明了 Whittle 指标策略接近最优。
Oct, 2008
提出了 “Streaming Bandits” 框架,该框架为不安宁的多臂赌博机问题,其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题,同时提供了一个新颖而高效的算法来计算 Whittle 索引解。
Mar, 2021
基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题,通过耦合两个时间尺度的 Q - 函数和 Whittle 指数,提供了 Neueral-Q-Whittle 的收敛速率为 O (1/k^(2/3)) 的有限时间分析。
Oct, 2023
此篇研究考虑了一个名为不安定多臂赌博机问题的模型,提出了一种探索和利用并行局部的策略,使得在一定的系统参数有限制时,能够获得对数级次的回报,而在缺乏关于系统的任何信息时,能够获得接近对数水平的回报。同时,也将问题扩展到了多个分布式参与者共享资源的情况,并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。
Nov, 2010
使用联邦学习范式,本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案,该算法在通信和计算效率上具有较高水平并提供隐私保证,并在在线多用户多信道访问案例中展示了快速收敛率和比基准方法更好的性能。值得注意的是,该算法的样本复杂度随代理数量而减少。
Jun, 2024
本文研究的是带有多动作的有限时间不安定多臂赌博机问题,提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R (MA)^2B-UCB,相比现有算法在遗憾和运算量等方面表现更佳。
Sep, 2021
通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略,我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题,以最大化总的敌对奖励,并确保在每个决策阶段满足瞬时激活约束条件,我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界,这在我们的所知范围内是首次实现的。
May, 2024
使用 QWI 和 QWINN 两种强化学习算法,分别基于表格和深度学习结构,学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度,一个更快的时间尺度用于更新状态 - 动作 Q 值,一个相对较慢的时间尺度用于更新 Whittle 指数。在理论结果中证明了 QWI 的收敛性,并介绍了基于神经网络的 QWINN 算法,能够在大状态空间环境中从一个状态推断出另一个状态,并且与其他算法相比收敛速度更快。
Jun, 2024