GINO-Q：学习一种渐近最优的索引策略用于无休止多臂老虎机

Aug, 2024

GINO-Q：学习一种渐近最优的索引策略用于无休止多臂老虎机

GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits

Gongpu Chen, Soung Chang Liew, Deniz Gunduz

TL;DR本研究解决了无休止多臂老虎机（RMAB）中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法，该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略，从而避免维度诅咒。实验结果表明，GINO-Q在非索引able RMABs中表现出色，学习到的策略接近最优，且收敛速度明显快于现有基线。

Abstract

The restless multi-armed bandit (RMAB) framework is a popular model with applications across a wide variety of fields. However, its solution is hindered by the exponentially growing state space (with respect to the number of arms) and the combinatorial action space, making traditional Reinfor

发现论文，激发创造

非贝叶斯不平静多臂赌博问题：近对数遗憾情形

该研究提出了一种适用于无贝叶斯假设的多臂老虎机问题求解方法，该方法可以在非贝叶斯假设且马尔可夫链参数未知时，通过元策略学习最优策略，并在未知动态信道的机会式频谱访问问题中取得了接近对数级的损失值，是该问题领域内的首个实现此类结果。

Nov, 2010

基于Q-Learning拉格朗日策略的多动作不平衡赌博机

本研究提出了两种新算法： MAIQL和LPQL，分别使用拉格朗日松弛和Q-learning 来学习多操作 RMABs 的最佳策略，实现了资源的有限分配，此策略是渐近最优的。研究表明，这两种方法始终优于基准设置，包括从真实世界的药物依从性数据派生的设置。

Jun, 2021

有限时段不静态多臂多动作赌博机的强化学习

本文研究的是带有多动作的有限时间不安定多臂赌博机问题，提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R(MA)^2B-UCB，相比现有算法在遗憾和运算量等方面表现更佳。

Sep, 2021

指数可索引性对Whittle算法不足：无静止赌博机改进的近似最优算法

本论文探讨了不安定多臂赌博机的规划问题，提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析，该算法在实际应用中表现优异且无需外部超参数。

Oct, 2022

有限状态不等式多臂赌博机和Rollout策略的可索引性

通过拉格朗日松弛和Whittle指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。

Apr, 2023

基于Whittle指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的Q学习

基于神经网络函数逼近的 Whittle 指数的 Q-学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题，通过耦合两个时间尺度的 Q-函数和 Whittle 指数，提供了 Neueral-Q-Whittle 的收敛速率为 O(1/k^(2/3)) 的有限时间分析。

Oct, 2023

多臂赌博机中的全局奖励

提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题，并且通过引入线性和Shapley-Whittle指标以及自适应策略来改进现有方法。实验证明，该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。

Jun, 2024

基于表格和深度学习的Whittle指数计算

使用QWI和QWINN两种强化学习算法，分别基于表格和深度学习结构，学习总折扣标准下的Whittle指数。关键特征是使用两个时间尺度，一个更快的时间尺度用于更新状态-动作Q值，一个相对较慢的时间尺度用于更新Whittle指数。在理论结果中证明了QWI的收敛性，并介绍了基于神经网络的QWINN算法，能够在大状态空间环境中从一个状态推断出另一个状态，并且与其他算法相比收敛速度更快。

Jun, 2024

具有恒定步长的烦躁多臂老虎机的惠特尔指数学习算法

本文研究了用于烦躁多臂老虎机的惠特尔指数学习算法，填补了现有研究在该领域的空白。作者提出了一种结合Q学习与探索策略的算法，并分析了其在恒定步长下的性能。实验证明，该算法可以有效学习惠特尔指数，具有广泛的应用潜力。

Sep, 2024

为无休止多臂赌博机提供更快的Q学习算法

本研究针对无休止多臂赌博机的问题，提出了Q学习算法及其变体，并探索了ε-贪婪和上置信界（UCB）策略的应用。研究发现，与其他Q学习算法相比，结合UCB策略的PhaseQL算法具有最优的收敛速度，显著提升了算法在学习过程中的效率。

Sep, 2024