为无休止多臂赌博机提供更快的Q学习算法

Sep, 2024

为无休止多臂赌博机提供更快的Q学习算法

Faster Q-Learning Algorithms for Restless Bandits

Parvish Kakarapalli, Devendra Kayande, Rahul Meshram

TL;DR本研究针对无休止多臂赌博机的问题，提出了Q学习算法及其变体，并探索了ε-贪婪和上置信界（UCB）策略的应用。研究发现，与其他Q学习算法相比，结合UCB策略的PhaseQL算法具有最优的收敛速度，显著提升了算法在学习过程中的效率。

Abstract

We study the Whittle index learning algorithm for restless multi-armed bandits (RMAB). We first present Q-learning algorithm and its variants -- speedy Q-learning (SQL), generalized speedy →

发现论文，激发创造

基于Whittle指数的平均奖励不安匪徒问题的Q学习

引入一种新的增强学习算法，利用Q-learning和Whittle指数的范例来解决平均奖励下的多臂赌博机问题。具体而言，利用Whittle指数策略的结构来缩小Q-learning的搜索空间，从而获得重大的计算增益。通过数字实验支持的严格收敛性分析。数字实验表明了所提出的方案具有优异的效果。

Apr, 2020

Restless-UCB，在线不安定赌博机的高效低复杂度算法

提出了一种名为Restless-UCB的在线学习策略来解决在线探索期望最大化问题，在Restless-UCB中，利用前期的探索来做出更好地决策，证明了期望最大化问题在合理的标准下得到了可行的上界，相较于现有算法，使用一种新的对于状态转移进行利用的方法来消除在泊松极限中出现的指数因子，同时也能用于优化现有算法。

Nov, 2020

基于Q-Learning拉格朗日策略的多动作不平衡赌博机

本研究提出了两种新算法： MAIQL和LPQL，分别使用拉格朗日松弛和Q-learning 来学习多操作 RMABs 的最佳策略，实现了资源的有限分配，此策略是渐近最优的。研究表明，这两种方法始终优于基准设置，包括从真实世界的药物依从性数据派生的设置。

Jun, 2021

有限时段不静态多臂多动作赌博机的强化学习

本文研究的是带有多动作的有限时间不安定多臂赌博机问题，提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R(MA)^2B-UCB，相比现有算法在遗憾和运算量等方面表现更佳。

Sep, 2021

乐观Whittle指数策略: 动态赌博机的在线学习

该研究提出了一种基于Whittle指数策略的在线学习算法UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的RMAB问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。

May, 2022

指数可索引性对Whittle算法不足：无静止赌博机改进的近似最优算法

本论文探讨了不安定多臂赌博机的规划问题，提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析，该算法在实际应用中表现优异且无需外部超参数。

Oct, 2022

基于Whittle指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的Q学习

基于神经网络函数逼近的 Whittle 指数的 Q-学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题，通过耦合两个时间尺度的 Q-函数和 Whittle 指数，提供了 Neueral-Q-Whittle 的收敛速率为 O(1/k^(2/3)) 的有限时间分析。

Oct, 2023

基于表格和深度学习的Whittle指数计算

使用QWI和QWINN两种强化学习算法，分别基于表格和深度学习结构，学习总折扣标准下的Whittle指数。关键特征是使用两个时间尺度，一个更快的时间尺度用于更新状态-动作Q值，一个相对较慢的时间尺度用于更新Whittle指数。在理论结果中证明了QWI的收敛性，并介绍了基于神经网络的QWINN算法，能够在大状态空间环境中从一个状态推断出另一个状态，并且与其他算法相比收敛速度更快。

Jun, 2024

GINO-Q：学习一种渐近最优的索引策略用于无休止多臂老虎机

本研究解决了无休止多臂老虎机（RMAB）中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法，该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略，从而避免维度诅咒。实验结果表明，GINO-Q在非索引able RMABs中表现出色，学习到的策略接近最优，且收敛速度明显快于现有基线。

Aug, 2024

具有恒定步长的烦躁多臂老虎机的惠特尔指数学习算法

本文研究了用于烦躁多臂老虎机的惠特尔指数学习算法，填补了现有研究在该领域的空白。作者提出了一种结合Q学习与探索策略的算法，并分析了其在恒定步长下的性能。实验证明，该算法可以有效学习惠特尔指数，具有广泛的应用潜力。

Sep, 2024