使用表格和深度强化学习的吉廷斯指数

May, 2024

使用表格和深度强化学习的吉廷斯指数

Tabular and Deep Reinforcement Learning for Gittins Index

Harshit Dhankar, Kshitij Mishra, Tejas Bodas

TL;DR提出了一种基于退休公式的表格 (QGI) 和深度强化学习 (DGN) 算法来学习 Gittins 指标，在大状态空间问题中运行时间更短、存储空间要求更低 (QGI 中小的 Q 表尺寸，DGN 中较小的重放缓冲区)，并且展现了更好的实证收敛性，是现有方法的可行替代。

Abstract

In the realm of multi-arm bandit problems, the gittins index policy is known to be optimal in maximizing the expected total discounted reward obtained from pulling the Markovian arms. In most realistic scenarios

multi-arm bandit problems gittins index policy reinforcement learning tabular algorithm deep rl algorithm

发现论文，激发创造

计算有限时间赌博机的经典指标

本文介绍了一种只使用算术运算的递归自适应贪心算法，能在（伪）多项式时间内计算有限时间区间离散状态赌博机的 Gittins 指数，可作为无法计算得到的有限时间区间多臂赌博机问题的次优启发式指数规则。该算法在计算研究中与传统校准方法进行了基准测试。

Jul, 2022

多目标赌博机：优化广义基尼系数

本文针对多臂赌博机问题中存在的多元反馈进行研究，通过使用广义 Gini 指数聚合函数对多目标在线优化问题进行形式化，并提出了一种在线梯度下降算法来解决该问题。该算法利用 GGI 聚合函数的凸性，通过精心控制探索来实现分布自由的回归。在合成数据和电池控制问题上进行测试，可以有效地平衡不同细胞的退化速率。

Jun, 2017

基于表格和深度学习的 Whittle 指数计算

使用 QWI 和 QWINN 两种强化学习算法，分别基于表格和深度学习结构，学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度，一个更快的时间尺度用于更新状态 - 动作 Q 值，一个相对较慢的时间尺度用于更新 Whittle 指数。在理论结果中证明了 QWI 的收敛性，并介绍了基于神经网络的 QWINN 算法，能够在大状态空间环境中从一个状态推断出另一个状态，并且与其他算法相比收敛速度更快。

Jun, 2024

基于 Whittle 指数的平均奖励不安匪徒问题的 Q 学习

引入一种新的增强学习算法，利用 Q-learning 和 Whittle 指数的范例来解决平均奖励下的多臂赌博机问题。具体而言，利用 Whittle 指数策略的结构来缩小 Q-learning 的搜索空间，从而获得重大的计算增益。通过数字实验支持的严格收敛性分析。数字实验表明了所提出的方案具有优异的效果。

Apr, 2020

有限状态不等式多臂赌博机和 Rollout 策略的可索引性

通过拉格朗日松弛和 Whittle 指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。

Apr, 2023

广义数据分布迭代

研究同时实现高样本效率和卓越绩效的深度强化学习模型，将挑战分解为两个经典强化学习问题，数据丰富性和探索 - 开发权衡，并通过对行为策略的能力和多样性进行显式建模和控制、采用单调数据分布优化技术进行选择 / 采样分布的精细和自适应控制等手段来同时解决这两个挑战，最终将这个过程整合到广义策略迭代中，提出了更为通用的广义数据分布迭代技术，并在 Arcade Learning Environment 上获得了超越 22 个人类世界纪录的最新性能。

Jun, 2022

具有一般观测模型的不安宁赌博机的 PCL - 可索引性和 Whittle 指数

通过建立一般的概率模型，我们考虑了一种对无休止多臂赌博问题的观测模型。我们将该问题建模为一个拥有可数信念状态空间的无休止赌博问题，并应用了可实现区域方法和部分守恒定律分析其可索引性和优先指数（Whittle 指数）。最后，我们提出了一个近似过程来将问题转化为可以应用于有限状态问题的 Niño-Mora 和 Bertsimas 的 AG 算法。数值实验表明，我们的算法表现出色。

Jul, 2023

具有马尔可夫回报的多臂赌博机问题的在线算法

考虑带 Markov 奖励的经典多臂赌博机问题，玩一只手臂时，其状态会按 Markov 方式更改，不玩时保持冻结。玩一只手臂时，玩家会获得与状态相关的奖励，每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下，基于样本均值的指数策略能够在总试验次数上实现对数遗憾，同时也证明了在具有休息的 Markov 赌博机模型下，样本均值指数策略不会降低最优性。此外，对比 Anantharam 的指数策略和 UCB，我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。

Jul, 2010

有限时段不静态多臂多动作赌博机的强化学习

本文研究的是带有多动作的有限时间不安定多臂赌博机问题，提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R (MA)^2B-UCB，相比现有算法在遗憾和运算量等方面表现更佳。

Sep, 2021

基于遗传多臂赌博机的通过仿真进行离散优化的强化学习方法

本文提出了一种新算法 GMAB，将强化学习领域的多臂赌博机和遗传算法中的随机搜索策略相结合，通过模拟来解决离散随机优化问题。实验结果表明，GMAB 在大量测试问题中取得了优越的性能。

Feb, 2023