通过异构行动抹除通道进行多智能体赌博学习

Dec, 2023

通过异构行动抹除通道进行多智能体赌博学习

Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels

Osama A. Hanna, Merve Karakas, Lin F. Yang, Christina Fragouli

TL;DR提出了一种新颖的算法，使学习者能够与异构丢失动作信道上的分布式代理并行交互，从而解决了通信约束和延迟等多智能体环境中的问题。

Abstract

multi-armed bandit (MAB) systems are witnessing an upswing in applications within multi-agent distributed environments, leading to the advancement of collaborative MAB algorithms. In such settings, communication between agents executing actions and the primary learner making decisions

multi-armed bandit distributed learning collaborative algorithms action erasure communication constraints

发现论文，激发创造

行动消失下的弱监督学习

我们提出了一种方案，可以使任何多臂赌博算法在作用擦除通道下表现出与无擦除情况下不差于一阶的最坏后悔率；此方案基于一个新颖的多臂赌博设置，在该设置中，学习器需要通过擦除通道向分布式代理传达动作信息，而通过外部传感器直接收集动作回报。

Jun, 2024

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂 ID 来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至 $O (logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法，该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

异构网络最优分配的多玩家多臂赌博机

针对多个用户访问相同频道的自组织网络，本研究在缺乏中央协调时，使用探索和承诺策略，通过传输和感知信息的方式，实现接近最优的频道分配，进而提高网络吞吐量，同时击败了现有的算法。

Jan, 2019

具有层次信息结构的去中心化协作强化学习

本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题，以求克服智能体间的信息不对称带来的挑战，并给出了相应的近似最优的遗憾界。

Nov, 2021

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

多用户多臂老虎机用于协调频谱接入

提出了两种多用户多臂赌博机算法框架，分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下，通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误，并能够处理用户数量随时间改变的动态问题。

Jul, 2018

用于机会式频谱接入的分散式在线学习算法

本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题，提出去中心化多臂赌博问题，并设计出一种去中心化的在线学习策略，以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中，分别考虑了优先级排序和公平访问策略。

Apr, 2011

协作多智体异构多臂赌博机

研究多人合作多智能体赌博问题，提出一种新的多人合作环境，并利用分散式演算法促进代理之间的合作，推导每个代理的累积遗憾度和群体的遗憾度上下限，并证明了该算法的近似最优行为。

May, 2023

多智能体赌博机的闲语插入 - 排除算法

该论文研究了多智能体多臂赌博机模型下的协作问题，提出了两个算法，通过交换信息来降低每个智能体的累计损失，理论证明通过最小的信息交互次数可以在不增加损失上极大地提高算法性能。

Jan, 2020