何时可以在平均回报无休止赌博中达到指数渐近最优性？

May, 2024

何时可以在平均回报无休止赌博中达到指数渐近最优性？

When is exponential asymptotic optimality achievable in average-reward restless bandits?

Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang

TL;DR我们提出了一种新的策略，该策略通过维护两个动态武器子集来解决离散时间无限视界平均奖励不安定强盗问题，其中一个子集具有近乎最优的状态分布并根据最优局部控制例程采取行动；另一个子集被驱向最优状态分布并逐渐合并到第一个子集中。我们证明了我们的策略在满足周期性 - 单链、非退化性和局部稳定性等温和假设的情况下在 N 臂问题中是渐进最优的，并且具有 O (exp (-C N)) 的最优性差距。我们的策略是首个在上述易于验证的假设集下实现指数渐近最优性的方法，而先前的工作要么需要强全局吸引子假设，要么仅实现了 O (1/sqrt (N)) 的最优性差距。我们进一步讨论了在显著减弱假设的基础上面临的基本障碍。特别地，我们通过证明一个下界，证明了局部稳定性对于指数渐近最优性是必要的。

Abstract

We consider the discrete-time infinite-horizon average-reward restless bandit problem. We propose a novel policy that maintains two dynamic subsets of arms: one subset of arms has a nearly optimal state distribution and takes actions according to an →

discrete-time infinite-horizon average-reward restless bandit problem dynamic subsets of arms optimal local control routine asymptotically optimal policy exponential asymptotic optimality

发现论文，激发创造

Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件

我们研究了离散时间无限远平均回报的不安静赌博机问题，提出了一种新的策略类别，旨在将逐渐增大的一部分臂带向最优分布。我们证明了在 N 臂问题中，如果单臂松弛问题是单连通和非周期的，我们的策略是渐近最优的，具有 O (1/√N) 的最优性差距。与目前大多数关注索引或优先级策略，依靠统一全球吸引子属性（UGAP）以保证收敛到最优解的已有工作，或者最近开发的基于模拟的策略不同，我们的方法不需要同步假设（SA）。

Feb, 2024

具有平均奖励的不安定强盗：打破统一全局吸引子假设

本研究提出了一种基于模拟的框架，可以将单臂策略转换成适用于 N 臂问题的策略，并提供了在离散和连续时间框架下的计算上最优结果，且不需要 UGAP 假设。

May, 2023

带多臂的不安匪徒问题：打败中心极限定理

本文研究了在 Whittle 渐近制度下，针对具有多个拉动次数的有限时间不安定老虎机问题的指数政策和流体优先政策等解法，并在数字实验中证明了流体优先策略的较优性。

Jul, 2021

有限时间内动态赌博机渐近最优指数策略

该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略，利用模拟证明其表现优于现有启发式方法。

Jul, 2017

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

无限臂老虎机渐进最优纯探索

本文研究了纯探索问题中具有无限多臂的赌博机问题，针对固定置信和固定预算两种情形，提出了两种算法，分别以最小的期望和固定样本复杂度为目标，最终准确选择一个高质量臂，使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$，并给出了理论证明。

Jun, 2023

有限状态不等式多臂赌博机和 Rollout 策略的可索引性

通过拉格朗日松弛和 Whittle 指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。

Apr, 2023

具有固定置信度的不安定赌博机中的最佳臂标识

在具有有限个臂的不安定多臂赌博问题中，通过分析某个马尔可夫决策过程及其状态 - 行动访问比例，确定最佳臂的策略和相应的期望停止时间，从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。

Oct, 2023

基于置信区间和不安定多臂赌博模型的感知策略

在认知无线电中，提出了一种对于具有不同但未知奖励分布的多臂赌博问题的感知策略。该策略是一个集中协调的索引策略，其中频带的索引由一个样本均值项和一个置信项组成，使得子优频段之间连续感知的时间间隔成指数增长，导致弱后悔值对数增长。仿真结果表明，该策略优于文献中的其他类似方法。

Nov, 2012