研究多智能体多臂赌博学习问题,以无通信和有限奖励为前提,提出了一种分布式拍卖算法并进行样本最优匹配学习和新的拍卖决策策略,通过新颖的基于次序统计量的后悔分析带来了全新的性能,实验模拟表明性能依赖于对数时间。
Jun, 2023
研究了一种多臂赌博机问题的策略版本,其中每个臂是一个个体战略代理人,在拉动一个臂膀时,臂膀将获得私人奖励,并可以选择一定金额传递给主体,以使主体将奖励基金尽可能分发给臂膀。通过该研究,设计了一种算法,引导代理人提交尽可能多的私人奖励。
Jun, 2017
研究公平多臂老虎机问题中学习与公平之间的相互作用,通过特定向量表示公平性约束,定义一个公平感知的后悔,通过两个参数刻画一个 Fair-SMAB 算法类,并提供一个公平保证,无论学习算法的选择是什么,都可以持续地适用。
May, 2019
研究多人合作多智能体赌博问题,提出一种新的多人合作环境,并利用分散式演算法促进代理之间的合作,推导每个代理的累积遗憾度和群体的遗憾度上下限,并证明了该算法的近似最优行为。
May, 2023
本研究介绍一种带有公平性约束条件的多臂赌博算法,使用关于用户和任务的上下文信息进行决策制定,以展示公平的决策结果
Dec, 2019
通过探索 - 执行算法设计实现在线公平分配研究,解决基于多臂赌博携带公平约束的未知价值非可分配商品的社会福利最大化问题.
Jul, 2024
研究多臂赌博问题下的多次试验和预算约束的拓展,提出上置信区间和 Exp3 算法的具体实现及其性能分析。
Nov, 2017
本论文针对多人随机多臂老虎机问题中,玩家无法通信且产生碰撞时得分为零的情形。解决了不同玩家可能具有不同的均值的异质设置,并提出了一种新的有效算法,结合了强制碰撞的隐式通信和匹配消除的思路。并给出了有限时间分析,证明了该算法的次线性极大遗憾界,解决了 NeurIPS2018 的一个开放性问题。
Feb, 2019
研究了多臂赌博问题中的探索和利用问题,并提出了一种基于非均匀采样策略的算法,用于解决带有分段稳定随机赌博问题的情况,并实现了对于超宽带通道选择的模拟测试。
May, 2012
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009