多人多臂赌博机中,争夺可共享臂
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
研究了分散的随机多臂老虎机问题,在通过Erdős-Rényi图连接的多个玩家中,优化各自获得奖励的概率分布,推导了针对不同连接度的算法,利用累计遗憾值比较传统多臂老虎机算法和本研究。
Dec, 2017
本研究提出了一种统计学习模型,用于解决双边市场中的稳定匹配问题,其中一方需从随机奖励中学习另一方的偏好,该模型扩展了标准的多臂赌博机框架,并研究了集中式和分散式方法,发现与单人多臂赌博机设置相比,具有令人惊讶的探索-利用权衡。
Jun, 2019
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020
本文在经典赌博机问题的基础上提出了一个多智能体变种,旨在学会对赌臂进行公平分配并利用纳什社会福利来衡量它的公平性,设计了三个多智能体变种的算法并证明其实现了次线性的损失纳什社会福利, 因此可以对合理的互惠性展现出更大的感受。
Jul, 2020
本研究提出 Multi-player multi-armed bandits with shareable resources 模型,针对共享资源的两种反馈信号提出 DPE-SDI 和 SIC-SDA 算法,证明它们的遗憾数在回合数上是紧的,并通过模拟验证算法的性能和在无线网络和边缘计算中的实用性。
Apr, 2022
本研究针对分布式选择问题,提出了一种新的多玩家多臂赌博机模型,解决了臂请求的随机到达及其分配策略。关键的创新在于设计出一种贪婪算法和迭代分布式算法,使得玩家无需通信即可根据最优臂拉取特征选取臂。实验结果表明,该算法能有效促使玩家在有限轮次内达成共识,具有重要的应用潜力。
Aug, 2024