多智能体强化学习在海上操作技术网络安全中的应用
深度学习技术的最新进展为自主网络防御的设计提供了新的可能性,智能代理团队在计算机网络防御角色中可能揭示了保护网络和运动资产的有希望的途径,该研究对比了基于价值的独立学习和集中训练去中心化执行的合作多代理强化学习方法,表明这两种方法都优于简单的多代理启发式防御者,这项工作展示了合作多代理强化学习在学习有效的网络防御策略对抗不同威胁方面的能力。
Aug, 2023
我们开发了一种多智能体强化学习算法,通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策,以最小化多个多基站多小区网络的总能耗,同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP),以实现个别基站之间的协作,以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性,进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明,训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言,与自动休眠模式 1 (符号级睡眠) 算法相比,MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗,在高流量小时内提高了约 19% 的能源效率。
Feb, 2024
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。
Mar, 2020
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战,此方法相对于单一智能体,其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证,并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法,如 Proximal Policy Optimization 和 Soft Actor-Critic。
Nov, 2022
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本文研究了网络系统控制中的多智能体强化学习问题,提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明,合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线,而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。
Apr, 2020
多智能体强化学习中的安全威胁及对策的研究,包括针对对手生成敌对策略时的部分可观测性限制的黑盒攻击方法以及针对这些策略的潜在防御方式的评估和建议。
Feb, 2024
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019