提出一种结合 epsilon-greedy 学习规则和避碰机制的算法,用于解决多用户共享多臂赌博问题,应用于认知无线电网络中,实验证明相比其他算法,该算法在此环境中可以显著提高性能,并取得次线性遗憾。
Apr, 2014
本研究提出了两种无需通信的算法Musical Chairs和Dynamic Musical Chairs来解决多人博弈中的多臂赌博机问题,其中玩家可能发生碰撞,但不会获得奖励。这些算法有着恒定和次线性的遗憾率,且不需要先验知识,为这类问题解决提供了理论保证。
Dec, 2015
本研究考虑了多个玩家之间,通过Erdos-Renyi图,以不同的通信概率下的去中心化随机多臂赌博问题,使用UCB1、epsilon-Greedy和Thompson Sampling算法探究了玩家之间的连接度对累计遗憾的影响。
Nov, 2017
本文探讨了多层次反馈的多人多臂老虎机算法,并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示,引入这些方法可以提高算法的性能并保证其渐近最优,降低拥堵的可能性。
研究了分散的随机多臂老虎机问题,在通过Erdős-Rényi图连接的多个玩家中,优化各自获得奖励的概率分布,推导了针对不同连接度的算法,利用累计遗憾值比较传统多臂老虎机算法和本研究。
Dec, 2017
设计了第一个能够在任意变化的环境中工作的多人赌博算法,其中武器的损失甚至可能是由对手选择的,同时解决了Rosenski、Shamir和Szlak(2016年)提出的一个悬而未决的问题。
Feb, 2019
介绍了一个分布式算法来解决多臂赌博机问题,通过异步交换较少的比特数,在不进行样本交换的情况下,仅通过传递臂ID来维护代理之间的合作;文中提出的算法可以将每个代理的后悔最小化,并将通信复杂度降至$O(logT)$,与不进行合作的方案相比,本算法能够显著降低每个代理的后悔。
Oct, 2019
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020
提出了一种解决多人多臂赌博机问题的分布式算法,利用上置信区间和分布式优化技术,解决了现实世界应用中玩家仅能访问动态局部子集的问题,并获得了接近最优的后悔率。
Dec, 2022
研究了多人赌注问题在异步设备中的实际应用和中心化算法的最小化后悔值,介绍了谨慎贪婪算法并证明其在数据依赖术语方面是最优的。
May, 2023