多臂老虎机中的分布式探索
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
本研究使用频率学派和贝叶斯算法以及运行协商算法解决多智能体多臂赌博机问题中的探索和开发的分布式合作决策问题,并证明了这些算法的性能,以及通信图结构对决策性能的影响。
Jun, 2016
研究了分散的随机多臂老虎机问题,在通过Erdős-Rényi图连接的多个玩家中,优化各自获得奖励的概率分布,推导了针对不同连接度的算法,利用累计遗憾值比较传统多臂老虎机算法和本研究。
Dec, 2017
研究多臂老虎机中多智能体协作学习,旨在探讨在交互受限制即沟通成本高昂的情况下,协作学习的效率与集中式算法的比较,提出多个新技术,对时间或置信度限制下的通信步数的下限问题进行了更加深入的分析。
Apr, 2019
介绍了一个分布式算法来解决多臂赌博机问题,通过异步交换较少的比特数,在不进行样本交换的情况下,仅通过传递臂ID来维护代理之间的合作;文中提出的算法可以将每个代理的后悔最小化,并将通信复杂度降至$O(logT)$,与不进行合作的方案相比,本算法能够显著降低每个代理的后悔。
Oct, 2019
提出了一种解决多人多臂赌博机问题的分布式算法,利用上置信区间和分布式优化技术,解决了现实世界应用中玩家仅能访问动态局部子集的问题,并获得了接近最优的后悔率。
Dec, 2022
我们研究了多臂赌博机和线性赌博机的联邦纯探索问题,在该问题中, M 个代理通过与中央服务器通信来合作地识别最佳臂。为了增强算法对延迟和代理不可用性的鲁棒性,我们提出了第一个用于固定置信度的联邦异步多臂赌博机和线性赌博机算法。我们的理论分析表明,所提出的算法在完全异步环境中实现了接近最优的样本复杂度和高效的通信成本。此外,基于合成和现实世界数据的实验结果从经验上阐明了所提出算法的有效性和通信成本效益。
Oct, 2023
本研究针对分布式选择问题,提出了一种新的多玩家多臂赌博机模型,解决了臂请求的随机到达及其分配策略。关键的创新在于设计出一种贪婪算法和迭代分布式算法,使得玩家无需通信即可根据最优臂拉取特征选取臂。实验结果表明,该算法能有效促使玩家在有限轮次内达成共识,具有重要的应用潜力。
Aug, 2024