Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件

Feb, 2024

Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang

TL;DR我们研究了离散时间无限远平均回报的不安静赌博机问题，提出了一种新的策略类别，旨在将逐渐增大的一部分臂带向最优分布。我们证明了在 N 臂问题中，如果单臂松弛问题是单连通和非周期的，我们的策略是渐近最优的，具有 O (1/√N) 的最优性差距。与目前大多数关注索引或优先级策略，依靠统一全球吸引子属性（UGAP）以保证收敛到最优解的已有工作，或者最近开发的基于模拟的策略不同，我们的方法不需要同步假设（SA）。

Abstract

We consider the infinite-horizon, average-reward restless bandit problem in discrete time. We propose a new class of policies that are designed to drive a progressively larger subset of arms toward the optimal di

restless bandit problem policies optimality gap unichain aperiodic

发现论文，激发创造

具有平均奖励的不安定强盗：打破统一全局吸引子假设

本研究提出了一种基于模拟的框架，可以将单臂策略转换成适用于 N 臂问题的策略，并提供了在离散和连续时间框架下的计算上最优结果，且不需要 UGAP 假设。

May, 2023

何时可以在平均回报无休止赌博中达到指数渐近最优性？

我们提出了一种新的策略，该策略通过维护两个动态武器子集来解决离散时间无限视界平均奖励不安定强盗问题，其中一个子集具有近乎最优的状态分布并根据最优局部控制例程采取行动；另一个子集被驱向最优状态分布并逐渐合并到第一个子集中。我们证明了我们的策略在满足周期性 - 单链、非退化性和局部稳定性等温和假设的情况下在 N 臂问题中是渐进最优的，并且具有 O (exp (-C N)) 的最优性差距。我们的策略是首个在上述易于验证的假设集下实现指数渐近最优性的方法，而先前的工作要么需要强全局吸引子假设，要么仅实现了 O (1/sqrt (N)) 的最优性差距。我们进一步讨论了在显著减弱假设的基础上面临的基本障碍。特别地，我们通过证明一个下界，证明了局部稳定性对于指数渐近最优性是必要的。

May, 2024

有限时间内动态赌博机渐近最优指数策略

该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略，利用模拟证明其表现优于现有启发式方法。

Jul, 2017

带多臂的不安匪徒问题：打败中心极限定理

本文研究了在 Whittle 渐近制度下，针对具有多个拉动次数的有限时间不安定老虎机问题的指数政策和流体优先政策等解法，并在数字实验中证明了流体优先策略的较优性。

Jul, 2021

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023

Restless-UCB，在线不安定赌博机的高效低复杂度算法

提出了一种名为 Restless-UCB 的在线学习策略来解决在线探索期望最大化问题，在 Restless-UCB 中，利用前期的探索来做出更好地决策，证明了期望最大化问题在合理的标准下得到了可行的上界，相较于现有算法，使用一种新的对于状态转移进行利用的方法来消除在泊松极限中出现的指数因子，同时也能用于优化现有算法。

Nov, 2020

有限状态不等式多臂赌博机和 Rollout 策略的可索引性

通过拉格朗日松弛和 Whittle 指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。

Apr, 2023

单模臂：遗憾下限和最优算法

研究了随机多臂老虎机问题，通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况，分别提出了 OSUB 和 UCB 算法，并得到了渐进的上下界和提高性能的实验结果。

May, 2014