深度多智能体强化学习在去中心化主动假设测试中的应用

MMSep, 2023

深度多智能体强化学习在去中心化主动假设测试中的应用

Deep Multi-Agent Reinforcement Learning for Decentralized Active Hypothesis Testing

Hadar Szostak, Kobi Cohen

TL;DR我们提出了一种基于深度多智能体强化学习框架的算法，名为 MARLA，用于多智能体主动假设检验问题，通过将每个智能体的状态映射到行动，从而最小化贝叶斯风险。我们通过实验结果有效展示了智能体学习协作策略和通过 MARLA 提升性能的能力，并展示了 MARLA 在单个智能体学习方法上的优越性。最后，我们提供了 MARLA 框架的开源实现，以方便相关领域的研究人员和开发者。

Abstract

We consider a decentralized formulation of the active hypothesis testing (AHT) problem, where multiple agents gather noisy observations from the environment with the purpose of identifying the correct hypothesis.

decentralized formulation active hypothesis testing multi-agent reinforcement learning bayes risk marla

发现论文，激发创造

单智能体和多智能体私人主动感知：一种深度神经进化方法

本文针对中央化和去中心化的积极假设测试问题，提出了基于神经进化的新框架和解决协作多智能体任务的新方法。在无线传感器网络异常检测示例应用中，通过数值实验验证了所提出的 EAHT 方法相对于传统积极假设测试策略和基于学习的方法的优越性。

Mar, 2024

异质智能体强化学习

本文提出了基于 HARL 算法的新框架 HAML，将多智能体强化学习的合作扩展到异构智能体模式，并对该框架下的多种算法进行了验证和比较。测试表明，HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。

Apr, 2023

具有层次信息结构的去中心化协作强化学习

本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题，以求克服智能体间的信息不对称带来的挑战，并给出了相应的近似最优的遗憾界。

Nov, 2021

促进协作多智能体强化学习的层次任务网络规划

本篇论文提出了 SOMARL 框架，利用符号知识嵌入 HTN 和元控制器中的 MARL 环境中，针对 FindTreasure 和 MoveBox 两种基准实验表现出比现有技术和基于子目标的基线更好的绩效。

Jun, 2023

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

基于超图神经网络的多智能体系统高效策略生成

本文介绍了一种基于邻域的多智能体强化学习算法，并提出了两种基于超图结构的变体方法，其中利用超图卷积网络实现了信息提取和表示学习，具有实现有效合作的显著优势。

Mar, 2022

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

通过多智能体联赛训练学习异质智能体协作

本研究提出了一种名为 Heterogeneous League Training (HLT) 的通用强化学习算法，用于解决异构多智能体问题，试验结果表明 HLT 可以提高异构团队在合作任务中的成功率，是解决策略版本迭代问题的有效途径，提供了评估异构团队中每个角色难度的实际方法。

Nov, 2022

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018