具有平均奖励的不安定强盗：打破统一全局吸引子假设

May, 2023

具有平均奖励的不安定强盗：打破统一全局吸引子假设

Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption

Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang

TL;DR本研究提出了一种基于模拟的框架，可以将单臂策略转换成适用于 N 臂问题的策略，并提供了在离散和连续时间框架下的计算上最优结果，且不需要 UGAP 假设。

Abstract

We study the infinite-horizon restless bandit problem with the average reward criterion, under both discrete-time and continuous-time sett

infinite-horizon restless bandit problem average reward computational efficiency asymptotic optimality

发现论文，激发创造

Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件

我们研究了离散时间无限远平均回报的不安静赌博机问题，提出了一种新的策略类别，旨在将逐渐增大的一部分臂带向最优分布。我们证明了在 N 臂问题中，如果单臂松弛问题是单连通和非周期的，我们的策略是渐近最优的，具有 O (1/√N) 的最优性差距。与目前大多数关注索引或优先级策略，依靠统一全球吸引子属性（UGAP）以保证收敛到最优解的已有工作，或者最近开发的基于模拟的策略不同，我们的方法不需要同步假设（SA）。

Feb, 2024

何时可以在平均回报无休止赌博中达到指数渐近最优性？

我们提出了一种新的策略，该策略通过维护两个动态武器子集来解决离散时间无限视界平均奖励不安定强盗问题，其中一个子集具有近乎最优的状态分布并根据最优局部控制例程采取行动；另一个子集被驱向最优状态分布并逐渐合并到第一个子集中。我们证明了我们的策略在满足周期性 - 单链、非退化性和局部稳定性等温和假设的情况下在 N 臂问题中是渐进最优的，并且具有 O (exp (-C N)) 的最优性差距。我们的策略是首个在上述易于验证的假设集下实现指数渐近最优性的方法，而先前的工作要么需要强全局吸引子假设，要么仅实现了 O (1/sqrt (N)) 的最优性差距。我们进一步讨论了在显著减弱假设的基础上面临的基本障碍。特别地，我们通过证明一个下界，证明了局部稳定性对于指数渐近最优性是必要的。

May, 2024

带多臂的不安匪徒问题：打败中心极限定理

本文研究了在 Whittle 渐近制度下，针对具有多个拉动次数的有限时间不安定老虎机问题的指数政策和流体优先政策等解法，并在数字实验中证明了流体优先策略的较优性。

Jul, 2021

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

单模臂：遗憾下限和最优算法

研究了随机多臂老虎机问题，通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况，分别提出了 OSUB 和 UCB 算法，并得到了渐进的上下界和提高性能的实验结果。

May, 2014

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023

有限时间内动态赌博机渐近最优指数策略

该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略，利用模拟证明其表现优于现有启发式方法。

Jul, 2017

X - 武装逼迫算法

本文提出了一种名为 HOO 的基于乐观优化的臂选择算法，可以对一类广义随机 bandit 问题给出更好的遗憾界，在一定条件下，在欧几里得空间内的单位超立方体上，通过 HOO 算法的表现，该算法的增长速率与空间维度无关。

Jan, 2010

具有固定置信度的不安定赌博机中的最佳臂标识

在具有有限个臂的不安定多臂赌博问题中，通过分析某个马尔可夫决策过程及其状态 - 行动访问比例，确定最佳臂的策略和相应的期望停止时间，从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。

Oct, 2023