奖励驱动的非平稳随机赌博机的探索

Mar, 2024

奖励驱动的非平稳随机赌博机的探索

Incentivized Exploration of Non-Stationary Stochastic Bandits

Sourav Chakraborty, Lijun Chen

TL;DR为具有非平稳奖励分布的多臂赌博问题研究激励探索，其中玩家探索贪心选择以外的臂部时获得补偿，并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境：突变和连续变化，并提出相应的激励探索算法。我们表明，所提出的算法在时间上实现了亚线性的遗憾和补偿，从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。

Abstract

We study incentivized exploration for the multi-armed bandit (MAB) problem with non-stationary reward distributions, where players receive compensation for exploring arms other than the greedy choice and may prov

incentivized exploration multi-armed bandit problem non-stationary reward distributions feedback regret

发现论文，激发创造

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

非固定奖励分布和延迟反馈过程的多臂赌博策略

本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能，并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术（AG1），在在线电子商务平台上进行了多臂赌博模拟。结果表明，相对于传统的多臂赌博策略，在后悔最小化的情况下，自适应技术表现更优秀。

Feb, 2019

关于突发性和缓慢变化的多臂赌博问题

LM-DSEE 与 SW-UCB# 两种算法解决了非稳态随机多臂赌博问题，在突变和缓慢变化的环境下，这些算法在时间上的预期总遗憾被控制在时间的子线性函数上。

Feb, 2018

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

(几乎) 免费的去中心化学习代理的激励探索

本文探讨了在多臂赌博机中利用多个具有长期战略的代理人进行奖励探索，并提出了一种简单但有效的激励策略，结果表明，当涉及足够多的学习代理人时，主体的探索过程几乎是免费的。

Oct, 2021

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

驯服非平稳赌博机：一种贝叶斯方法

针对非平稳环境下的多臂赌博问题，提出了一种基于贝叶斯方法的 Thompson Sampling 变体，对其进行了系统性降低先前观测效果的描述，通过增加贝叶斯采样的功利值提供了最优化算法的乐观版本，并进行了广泛的实证分析和与各种算法的比较研究。

Jul, 2017