多臂赌博机问题的探索和利用的确定性序列

Jun, 2011

多臂赌博机问题的探索和利用的确定性序列

Deterministic Sequencing of Exploration and Exploitation for Multi-Armed Bandit Problems

Sattar Vakili, Keqin Liu, Qing Zhao

TL;DR提出了一种基于确定性探索和利用序列的 Multi-Armed Bandit (MAB) 问题求解方法，该方法能在轻尾分布下达到最优对数遗憾度，且在重尾分布下，若存在一阶到 p 阶矩，则达到 O (T^1/p) 的遗憾度，该方法在各种 MAB 变体问题中都有应用。

Abstract

In the multi-armed bandit (MAB) problem, there is a given set of arms with unknown reward models. At each time, a player selects one arm to play, aiming to maximize the total expected reward over a horizon of length T. An approach based on a →

multi-armed bandit deterministic sequencing of exploration and exploitation regret light-tailed reward distributions heavy-tailed reward distributions

发现论文，激发创造

关于突发性和缓慢变化的多臂赌博问题

LM-DSEE 与 SW-UCB# 两种算法解决了非稳态随机多臂赌博问题，在突变和缓慢变化的环境下，这些算法在时间上的预期总遗憾被控制在时间的子线性函数上。

Feb, 2018

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

腐败赌徒

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017

带有协变量的多臂老虎机问题

本研究提出了一种新的策略 abse 用于动态多臂赌博问题中，其可以将全局问题自适应地拆分为静态多臂赌博问题，同时其在静态多臂赌博问题中的后继消除策略的遗憾界更为严格，且在动态问题中其拥有最小极小遗憾界。

Oct, 2011

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015

用于多臂赌博机的实值组合纯探索的汤普森抽样

我们研究了多臂赌博机问题的实值组合纯探索（R-CPE-MAB）问题。我们引入了一种名为广义汤普森采样探索（GenTS-Explore）算法，它是第一个能够在动作集的大小指数级增长时仍然有效的算法。我们还引入了一个新颖的问题相关样本复杂性下界，并证明 GenTS-Explore 算法实现了最优的样本复杂性，仅存在一个与问题相关的常数因子。

Aug, 2023