强制性探索在赌博问题中的应用

Dec, 2023

Forced Exploration in Bandit Problems

Han Qi, Fei Guo, Li Zhu

TL;DR设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Abstract

The multi-armed bandit(MAB) is a classical sequential decision problem. Most work requires assumptions about the reward distribution (e.g., bounded), while practitioners may have difficulty obtaining information

multi-armed bandit reward distribution regret upper bounds forced exploration stationary settings

发现论文，激发创造

奖励驱动的非平稳随机赌博机的探索

为具有非平稳奖励分布的多臂赌博问题研究激励探索，其中玩家探索贪心选择以外的臂部时获得补偿，并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境：突变和连续变化，并提出相应的激励探索算法。我们表明，所提出的算法在时间上实现了亚线性的遗憾和补偿，从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。

Mar, 2024

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

腐败赌徒

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017

将 Cournot 博弈建模为多智能体多臂赌博机

本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Jan, 2022

成本补贴的多臂老虎机

本研究考虑了一种新颖的多臂赌博机问题（MAB with cost subsidy），为了优化累积的成本和收益，学习机构必须支付选择的手臂成本，针对这种问题，我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟，最后建立了任何线上学习算法的性能下界，为实际应用不同算法提供了实用性建议。

Nov, 2020

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法，该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021