受通信限制的加性高斯噪声下赌博机问题

Apr, 2023

受通信限制的加性高斯噪声下赌博机问题

Communication-Constrained Bandits under Additive Gaussian Noise

Prathamesh Mayekar, Jonathan Scarlett, Vincent Y. F. Tan

TL;DR研究了分布式随机多臂赌博问题，其通信反馈受到编码和加性高斯噪声的约束，在此情形下，提出了多相赌博算法UE-UCB ++，该算法在初始阶段进行均匀探索，随后在最终阶段使用UCB算法，且均匀探索阶段形成的平均奖励的较粗估计有助于优化编码协议，从而减少均匀探索圈数，与所得到的信息理论下限较为接近。

Abstract

We study a distributed stochastic multi-armed bandit where a client supplies the learner with communication-constrained feedback based on the rewards for the corresponding arm pulls. In our setup, the client must

发现论文，激发创造

赌赢型高斯过程优化:无悔与实验设计

通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界，建立了高斯过程优化和实验设计之间的联系。通过实验，我们证明了GP-UCB可以优于其他启发式高斯过程优化方法。

Dec, 2009

对于带噪声高斯过程赌博优化的损失下界

本文考虑如何基于无噪声样本和Bandit反馈来顺序优化黑盒函数，提出了一种新的Gaussian 过程 Bandit 优化算法，并给出了算法无关的简单遗憾和累计遗憾的下界，进一步阐述了随机波动和目标函数的连续性对累计遗憾和简单遗憾的影响。

May, 2017

未知协同收益游戏中无悔学习

本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW，通过运行 MW 方法获得最佳效果，同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。

Sep, 2019

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂ID来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至$O(logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

有限通信的多智能体多臂赌博机

本文探讨多个代理协作解决随机k-臂赌博机问题的策略。我们提出了一种名为有限通信协作策略-上限置信区间（LCC-UCB）的新算法，可同时具有较少通信成本及较少累积遗憾。将该策略扩展至稀疏图，我们提出了LCC-UCB-GRAPH，它在最大度数为$K_G$和直径为$D$的稀疏图上具有更高的表现。

Feb, 2021

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法QuBan的通信高效的多臂老虎机算法，该算法只需要每次发送3位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

更接近现实：带有不完美通信的协同Bandit算法

本文探讨了协作强盗问题在现实世界通信环境下的三种典型情景，并提出了相应的去中心化算法来实现可比性能并且保证产生小组遗憾次数接近最优解，同时提出了对于完美通信情况下的改进算法，最后给出了群体遗憾的最紧密的网络相关极小极大下限。

Nov, 2021

无噪音奖励和无通信的最佳合作多人学习赌博机

合作多人奖励学习中，通信受限的策略选择问题；通过使用上界和下界置信度算法，解决信息不对称导致的动作选择问题，并达到对数和平方根极限遗憾值。

Nov, 2023

基于信息论的噪声上下文随机赌博机的汤普森抽样算法的遗憾分析

我们研究了一种随机情境线性赌博机问题，代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略，可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析，对于神谕的行动策略，我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后，以一定延迟观察到真实情境的情景，并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后，我们通过与基准算法进行实证研究，展示了所提出算法的性能。

Jan, 2024

用于带有重和超重对称噪声的随机赌博机的快速UCB类型算法

提出了基于一种不精确预算方法的智能多臂赌博机构建UCB型算法的新方法；推导出了相应于最优化方法的收敛速度的遗憾界；提出了一种新的算法Clipped-SGD-UCB，并从理论和实证角度展示了在奖励中存在对称噪声的情况下，我们可以达到O(logT√KTlogT)的遗憾界，而不是当奖励分布满足E[X∈D][|X|^(1+α)]≤σ^(1+α)(α∈(0,1])时，即表现得比普遍的重尾赌博机下界所假设的要好。此外，即使奖励分布没有期望，也能保持相同的界限，即当α<0时。

Feb, 2024