多智能体合作学习系统的悔恨最小化算法
协作学习中的多智能体模仿学习问题,以减小学习者和专家之间的价值差为目标,但无法保证对战略智能体的偏离具有鲁棒性。因此,研究了在马尔科夫博弈中以后悔差作为目标的代替方案,并提出了两种有效的方法来最小化后悔差。
Jun, 2024
通过对大型语言模型代理在决策中的性能进行度量,我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互,以更好地了解这些交互环境中 LLM 代理的局限性。
Mar, 2024
我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题,在该模型中,每个智能体面临一个有限的臂集,并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂,其中每个臂的混合奖励是其在所有智能体之间的奖励的加权平均,这使得智能体之间的通信至关重要。尽管在这个协作模型下已知最优臂识别的近似复杂度,但最优遗憾问题仍然是开放的。在这项工作中,我们解决了这个问题,并提出了第一个在这个协作老虎机模型下具有最优遗憾界限的算法。此外,我们还展示了只需要一个小的常数期望通信轮数。
Dec, 2023
本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题,以求克服智能体间的信息不对称带来的挑战,并给出了相应的近似最优的遗憾界。
Nov, 2021
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
研究多人合作多智能体赌博问题,提出一种新的多人合作环境,并利用分散式演算法促进代理之间的合作,推导每个代理的累积遗憾度和群体的遗憾度上下限,并证明了该算法的近似最优行为。
May, 2023
多智能体学习是一门涉及博弈论、经济学、社会科学和进化生物学等众多学科交叉的主题。本文概述了多智能体学习的基本概念、问题设置和算法,包括增强学习、多智能体序列决策、多智能体合作的挑战,对最近进展进行了全面综述和相关度量评估,并讨论了该领域的开放性挑战,以期激发新的研究方向。
Dec, 2023
本文研究了协作在线学习的方法,特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况,并对其使用的不同算法进行了遗憾分析。我们发现,单个代理学习策略的自然扩展在网络设置下表现不佳,我们提出了一类策略,并证明其在网络环境中容易遭受大量遗憾。同时,我们也提出了基于网络结构的学习算法,并在拥有不同拓扑结构的网络上进行了实验。
Feb, 2016
本文研究机器学习对于个人与社区在借贷、教育、就业等方面分配机会的影响,并通过模拟长期发展并结合政策后悔的方法提出了一个可行的次线性方案,以考虑不同分配决策的潜在增长性。
Jun, 2021