综合多元信息以协调行动：异质代理的随机强盗算法

Aug, 2024

综合多元信息以协调行动：异质代理的随机强盗算法

Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents

Lucia Gordon, Esther Rolf, Milind Tambe

TL;DR本研究针对传统随机多代理多臂强盗问题中的差异化奖励分配缺乏有效方法的空白，提出了一种新的UCB风格算法Min-Width，以整合来自异质代理的信息并协调代理与臂的分配。研究发现，当代理的敏感性差异较大时，模型对代理异质性的考虑能显著提升性能，而信息共享的增加并不始终提升表现。

Abstract

Stochastic multi-agent multi-armed bandits typically assume that the rewards from each arm follow a fixed distribution, regardless of which agent pulls the arm. However, in many real-world settings, rewards can depend on the sensitivity of each agent to their environment. In medical screening, disease detection rates can vary by test type; in preference matc

发现论文，激发创造

多臂赌博机中的分布式协作决策：频率学派和贝叶斯算法

本研究使用频率学派和贝叶斯算法以及运行协商算法解决多智能体多臂赌博机问题中的探索和开发的分布式合作决策问题，并证明了这些算法的性能，以及通信图结构对决策性能的影响。

Jun, 2016

多臂赌博机问题中多智能体异质随机交互

研究和分析了一个多智能体多臂赌博问题，其中智能体可观察到邻居的选择和奖励，这些邻居由具有异构和随机互连的网络图定义，这些互动由每个智能体的社交性决定，我们针对每个智能体设计算法来最大化其自己的预期累积奖励，并证明依赖于智能体和网络结构的社交性能边界。使用这些边界来预测智能体的性能排名，并进行了理论和计算上的验证。

May, 2019

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂ID来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至$O(logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

分散合作匪徒团队中的合作伙伴感知算法

通过在多智能体协作中引入Partner-Aware策略，我们提出了一种去中心化的多臂赌博问题并进行了分析，理论和实验表明该策略实现了对数遗憾，并且能够在人工智能和人机合作中获得较好的表现。

Oct, 2021

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

协作多智体异构多臂赌博机

研究多人合作多智能体赌博问题，提出一种新的多人合作环境，并利用分散式演算法促进代理之间的合作，推导每个代理的累积遗憾度和群体的遗憾度上下限，并证明了该算法的近似最优行为。

May, 2023

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023

通过异构行动抹除通道进行多智能体赌博学习

提出了一种新颖的算法，使学习者能够与异构丢失动作信道上的分布式代理并行交互，从而解决了通信约束和延迟等多智能体环境中的问题。

Dec, 2023

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为O(psi/epsilon^beta)（其中省略了对数计算，psi是一个函数，beta是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有m个通信代理和alpha遗憾度的在线多代理算法，并保证了与时间跨度T的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

多智能体随机可共享臂容量的多臂赌博机

本研究针对分布式选择问题，提出了一种新的多玩家多臂赌博机模型，解决了臂请求的随机到达及其分配策略。关键的创新在于设计出一种贪婪算法和迭代分布式算法，使得玩家无需通信即可根据最优臂拉取特征选取臂。实验结果表明，该算法能有效促使玩家在有限轮次内达成共识，具有重要的应用潜力。

Aug, 2024