带干扰的多臂赌博机

Feb, 2024

Multi-Armed Bandits with Interference

Su Jia, Peter Frazier, Nathan Kallus

TL;DR在当代在线平台中，干扰实验面临重大挑战。本研究介绍了具有干扰的多臂赌博机问题，应用集群随机化策略来达到最优期望后悔值，并得出高概率边界与实验单元数 N 无关。

Abstract

experimentation with interference poses a significant challenge in contemporary online platforms. Prior research on experimentation with <

experimentation interference multi-armed bandits reward functions switchback policies

发现论文，激发创造

具有网络干扰的多臂赌博机

通过研究在线干预实验中的干扰问题，我们提出了基于线性回归算法的多臂赌博机策略，以最小化后悔并实现低后悔的任务分配。

May, 2024

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

关于插值专家和多臂赌博机的研究

研究一种插值两种不同信息观察方式的在线决策问题，称为 $\mathbf {m}$-MAB。施加 $\mathbf {m}$-MAB 的紧凑极小后悔界，并为其纯探索版本 $\mathbf {m}$-BAI 设计了最佳 PAC 算法。本文还将 $\mathbf {m}$-MAB 的上限和下限扩展到了更一般的带有图反馈的情景下，并得出了在几个反馈图族中获得紧凑极小后悔界的结果。

Jul, 2023

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

多用户多臂老虎机用于协调频谱接入

提出了两种多用户多臂赌博机算法框架，分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下，通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误，并能够处理用户数量随时间改变的动态问题。

Jul, 2018

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂 ID 来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至 $O (logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

腐败赌徒

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017