可解释多智能体强化学习应用于时间查询

IJCAIMay, 2023

可解释多智能体强化学习应用于时间查询

Explainable Multi-Agent Reinforcement Learning for Temporal Queries

Kayla Boggess, Sarit Kraus, Lu Feng

TL;DR该研究提出了一种基于 PCTL 逻辑公式和概率模型检验的方法，用于为多智能体强化学习系统（MARL）生成策略级对比解释以回答时间用户查询，以帮助用户理解复杂环境中 MARL 代理的新兴行为，并能够解释为何用户查询不可行。实验表明，该方法有效提高了用户的性能与满意度。

Abstract

As multi-agent reinforcement learning (marl) systems are increasingly deployed throughout society, it is imperative yet challenging for users to understand the emergent behaviors of →

multi-agent reinforcement learning marl policy-level contrastive explanations temporal user query probabilistic model checking

发现论文，激发创造

多智能体强化学习的策略解释

本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段：关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中，表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。

Apr, 2022

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

高效多智能体强化学习中的因果检测

通过引入时间因果关系的惩罚机制，多智能体强化学习问题中的懒惰智能体可以在了解到其本地观察与团队回报的因果关系的基础上，在团队表现和个体能力方面得到改善。

Mar, 2023

用于基于意图的蜂窝网络服务保障的多智能体强化学习

该论文介绍了一种基于多智能体强化学习技术的意图管理方法，通过优化重要 KPI 并协调各个闭环实现多个意图同时满足，实验结果表明该方法在实现意图和优化 KPI 方面表现良好。

Aug, 2022

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

神经符号方法在可解释性和概率决策中的多智能体强化学习

多智能体强化学习（MARL）在优化多智能体共享资源中的系统性能方面具有潜力，但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战，我们提出了一种基于事件驱动的公式，利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架，概率逻辑神经网络（PLNN），将逻辑推理能力与概率图模型相结合，以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。

Feb, 2024

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

针对合作多智能体强化学习中理解训练行为的诊断

合作多智能体强化学习对分布式决策挑战取得了显著进展，但随着多智能体系统的复杂性增加，对其行为的全面理解变得越来越困难。本文探讨了可解释人工智能（XAI）工具在深入理解智能体行为方面的应用。我们将这些诊断工具应用于基于等级的觅食和多机器人仓库环境，并将其应用于各种多智能体强化学习算法。我们展示了我们的诊断方法如何提高 MARL 系统的可解释性，从而更好地理解智能体的行为。

Dec, 2023