BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-agent multi-armed bandit
搜索结果 - 4
AAAI
稀疏超图上多智能体汤普森采样的有限时间频率后悔界
研究了多智能体多抽臂赌博机问题,针对联动臂的回报进行了探索,提出了一种高效的变体算法 epsilon-MATS,并证明了其在频率意义下的遗憾上界是次线性的,同时通过实验验证了其在相同情景下相比现有算法的卓越性能和改进的计算效率。
PDF
6 months ago
多智能体多臂赌博机中的遗憾下界
在多臂赌博机领域,多智能体多臂赌博机方法已经受到了广泛关注,但对应的遗憾下界的研究相对较少。本文在不同情景下首次全面研究了遗憾下界,并证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时,我们证明了实例相关上界的 O(log T)下
→
PDF
a year ago
O-RAN 中的智能负载均衡与资源分配:一种多智能体多臂赌博机方法
该论文研究了如何利用机器学习算法实现开放式无线接入网络的智能化管控,提出了一种基于多智能体和多臂赌博机的负载平衡和资源分配策略,并通过仿真实验证明,该算法在有效提升网络吞吐率的同时,相对于基于规则的和其他启发式算法,更能实现开放接入单元之间
→
PDF
a year ago
将 Cournot 博弈建模为多智能体多臂赌博机
本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法,并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时,本文提出了两种利用有序行动空间的新方法,即 E - 贪心
→
PDF
3 years ago
Prev
Next