基于表格和深度学习的 Whittle 指数计算

Jun, 2024

基于表格和深度学习的 Whittle 指数计算

Tabular and Deep Learning for the Whittle Index

Francisco Robledo Relaño, Vivek Borkar, Urtzi Ayesta, Konstantin Avrachenkov

TL;DR使用 QWI 和 QWINN 两种强化学习算法，分别基于表格和深度学习结构，学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度，一个更快的时间尺度用于更新状态 - 动作 Q 值，一个相对较慢的时间尺度用于更新 Whittle 指数。在理论结果中证明了 QWI 的收敛性，并介绍了基于神经网络的 QWINN 算法，能够在大状态空间环境中从一个状态推断出另一个状态，并且与其他算法相比收敛速度更快。

Abstract

The whittle index policy is a heuristic that has shown remarkably good performance (with guaranteed asymptotic optimality) when applied to the class of problems known as restless multi-armed bandit problems (RMAB

whittle index policy restless multi-armed bandit problems reinforcement learning algorithms qwi qwinn

发现论文，激发创造

基于 Whittle 指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题，通过耦合两个时间尺度的 Q - 函数和 Whittle 指数，提供了 Neueral-Q-Whittle 的收敛速率为 O (1/k^(2/3)) 的有限时间分析。

Oct, 2023

基于 Whittle 指数的平均奖励不安匪徒问题的 Q 学习

引入一种新的增强学习算法，利用 Q-learning 和 Whittle 指数的范例来解决平均奖励下的多臂赌博机问题。具体而言，利用 Whittle 指数策略的结构来缩小 Q-learning 的搜索空间，从而获得重大的计算增益。通过数字实验支持的严格收敛性分析。数字实验表明了所提出的方案具有优异的效果。

Apr, 2020

NeurWIN：深度强化学习的神经 Whittle 指数网络用于不安静的赌博机

本文提出了一种名为 NeurWIN 的神经 Whittle 指标网络，通过利用 Whittle 指标的数学性质，学习任何不平静机器的 Whittle 指标。我们证明了生成 Whittle 指标的神经网络也是为一组马尔可夫决策问题生成最优控制的神经网络，并演示了 NeurWIN 的实用性，评估其在三个不平静机器问题中的表现。我们的实验结果表明，NeurWIN 的性能明显优于其他强化学习算法。

Oct, 2021

指数可索引性对 Whittle 算法不足：无静止赌博机改进的近似最优算法

本论文探讨了不安定多臂赌博机的规划问题，提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析，该算法在实际应用中表现优异且无需外部超参数。

Oct, 2022

乐观 Whittle 指数策略：动态赌博机的在线学习

该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。

May, 2022

焦虑赌博问题的可索引性与 Whittle 动态多通道访问指数的最优性

研究了一类探索性多臂赌博问题，并通过建立指标化和获得 Whittle 指标，提高了 Whittle 指标策略的直接实施性，同时，研究发现 Whittle 指标策略与 “近视政策” 等价，因此具有半通用性，这导致 Whittle 指标策略是某些条件下最优的。同时，通过拉格朗日弛豫，开发了计算性能上限的有效算法，证明了 Whittle 指标策略接近最优。

Oct, 2008

多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用

本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先前收集的母婴健康数据集，展示了其性能。

Feb, 2022

使用表格和深度强化学习的吉廷斯指数

提出了一种基于退休公式的表格 (QGI) 和深度强化学习 (DGN) 算法来学习 Gittins 指标，在大状态空间问题中运行时间更短、存储空间要求更低 (QGI 中小的 Q 表尺寸，DGN 中较小的重放缓冲区)，并且展现了更好的实证收敛性，是现有方法的可行替代。

May, 2024

具有一般观测模型的不安宁赌博机的 PCL - 可索引性和 Whittle 指数

通过建立一般的概率模型，我们考虑了一种对无休止多臂赌博问题的观测模型。我们将该问题建模为一个拥有可数信念状态空间的无休止赌博问题，并应用了可实现区域方法和部分守恒定律分析其可索引性和优先指数（Whittle 指数）。最后，我们提出了一个近似过程来将问题转化为可以应用于有限状态问题的 Niño-Mora 和 Bertsimas 的 AG 算法。数值实验表明，我们的算法表现出色。

Jul, 2023

有限状态不等式多臂赌博机和 Rollout 策略的可索引性

通过拉格朗日松弛和 Whittle 指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。

Apr, 2023