可解释多智能体强化学习应用于时间查询
本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段:关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中,表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。
Apr, 2022
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
通过引入时间因果关系的惩罚机制,多智能体强化学习问题中的懒惰智能体可以在了解到其本地观察与团队回报的因果关系的基础上,在团队表现和个体能力方面得到改善。
Mar, 2023
该论文介绍了一种基于多智能体强化学习技术的意图管理方法,通过优化重要 KPI 并协调各个闭环实现多个意图同时满足,实验结果表明该方法在实现意图和优化 KPI 方面表现良好。
Aug, 2022
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
多智能体强化学习(MARL)在优化多智能体共享资源中的系统性能方面具有潜力,但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战,我们提出了一种基于事件驱动的公式,利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架,概率逻辑神经网络(PLNN),将逻辑推理能力与概率图模型相结合,以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。
Feb, 2024
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019
合作多智能体强化学习对分布式决策挑战取得了显著进展,但随着多智能体系统的复杂性增加,对其行为的全面理解变得越来越困难。本文探讨了可解释人工智能(XAI)工具在深入理解智能体行为方面的应用。我们将这些诊断工具应用于基于等级的觅食和多机器人仓库环境,并将其应用于各种多智能体强化学习算法。我们展示了我们的诊断方法如何提高 MARL 系统的可解释性,从而更好地理解智能体的行为。
Dec, 2023