基于 Whittle 指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

Oct, 2023

基于 Whittle 指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation

PDF

Guojun Xiong, Jian Li

TL;DR基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题，通过耦合两个时间尺度的 Q - 函数和 Whittle 指数，提供了 Neueral-Q-Whittle 的收敛速率为 O (1/k^(2/3)) 的有限时间分析。

Abstract

whittle index policy is a heuristic to the intractable restless multi-armed bandits (RMAB) problem. Although it is provably asymptotically optimal, finding Whittle indices remains difficult. In this paper, we present ne

whittle index policy neural-q-whittle restless multi-armed bandits neural network function approximation convergence rate

发现论文，激发创造

基于 Whittle 指数的平均奖励不安匪徒问题的 Q 学习

引入一种新的增强学习算法，利用 Q-learning 和 Whittle 指数的范例来解决平均奖励下的多臂赌博机问题。具体而言，利用 Whittle 指数策略的结构来缩小 Q-learning 的搜索空间，从而获得重大的计算增益。通过数字实验支持的严格收敛性分析。数字实验表明了所提出的方案具有优异的效果。

Apr, 2020

基于表格和深度学习的 Whittle 指数计算

使用 QWI 和 QWINN 两种强化学习算法，分别基于表格和深度学习结构，学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度，一个更快的时间尺度用于更新状态 - 动作 Q 值，一个相对较慢的时间尺度用于更新 Whittle 指数。在理论结果中证明了 QWI 的收敛性，并介绍了基于神经网络的 QWINN 算法，能够在大状态空间环境中从一个状态推断出另一个状态，并且与其他算法相比收敛速度更快。

Jun, 2024

NeurWIN：深度强化学习的神经 Whittle 指数网络用于不安静的赌博机

本文提出了一种名为 NeurWIN 的神经 Whittle 指标网络，通过利用 Whittle 指标的数学性质，学习任何不平静机器的 Whittle 指标。我们证明了生成 Whittle 指标的神经网络也是为一组马尔可夫决策问题生成最优控制的神经网络，并演示了 NeurWIN 的实用性，评估其在三个不平静机器问题中的表现。我们的实验结果表明，NeurWIN 的性能明显优于其他强化学习算法。

Oct, 2021

指数可索引性对 Whittle 算法不足：无静止赌博机改进的近似最优算法

本论文探讨了不安定多臂赌博机的规划问题，提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析，该算法在实际应用中表现优异且无需外部超参数。

Oct, 2022

乐观 Whittle 指数策略：动态赌博机的在线学习

该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。

May, 2022

焦虑赌博问题的可索引性与 Whittle 动态多通道访问指数的最优性

研究了一类探索性多臂赌博问题，并通过建立指标化和获得 Whittle 指标，提高了 Whittle 指标策略的直接实施性，同时，研究发现 Whittle 指标策略与 “近视政策” 等价，因此具有半通用性，这导致 Whittle 指标策略是某些条件下最优的。同时，通过拉格朗日弛豫，开发了计算性能上限的有效算法，证明了 Whittle 指标策略接近最优。

Oct, 2008

多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用

本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先前收集的母婴健康数据集，展示了其性能。

Feb, 2022

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

基于 Q-Learning 拉格朗日策略的多动作不平衡赌博机

本研究提出了两种新算法： MAIQL 和 LPQL，分别使用拉格朗日松弛和 Q-learning 来学习多操作 RMABs 的最佳策略，实现了资源的有限分配，此策略是渐近最优的。研究表明，这两种方法始终优于基准设置，包括从真实世界的药物依从性数据派生的设置。

Jun, 2021

具有一般观测模型的不安宁赌博机的 PCL - 可索引性和 Whittle 指数

通过建立一般的概率模型，我们考虑了一种对无休止多臂赌博问题的观测模型。我们将该问题建模为一个拥有可数信念状态空间的无休止赌博问题，并应用了可实现区域方法和部分守恒定律分析其可索引性和优先指数（Whittle 指数）。最后，我们提出了一个近似过程来将问题转化为可以应用于有限状态问题的 Niño-Mora 和 Bertsimas 的 AG 算法。数值实验表明，我们的算法表现出色。

Jul, 2023