风险感知的分布式多智能体强化学习

Apr, 2023

风险感知的分布式多智能体强化学习

Risk-Aware Distributed Multi-Agent Reinforcement Learning

Abdullah Al Maruf, Luyao Niu, Bhaskar Ramasubramanian, Andrew Clark, Radha Poovendran

TL;DR研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Abstract

Autonomous cyber and cyber-physical systems need to perform decision-making, learning, and control in unknown environments. Such decision-making<

multi-agent reinforcement learning conditional value-at-risk distributed learning decision-making unknown environments

发现论文，激发创造

RMIX：合作强化学习代理的风险敏感策略学习

本研究提出了一种名为 RMIX 的协作多智能体强化学习算法，使用条件风险价值（CVaR）测量个体 Q 值的学习分布，优化 CVaR 策略，并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布，提高了 StarCraft II 任务结果的协调和样本效率。

Feb, 2021

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

使用累积概率理论（CPT）的分布式采样型 actor-critic（AC）算法为网络聚合式马尔科夫博弈（NAMG）引入风险敏感性，实现主观感知的马尔科夫最优纳什均衡。实验结果表明，通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同，具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。

Feb, 2024

多智能体深度网络下的多样化 Q - 向量强化学习

本论文扩展了之前的研究，提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络（DQN）算法，并在双机械臂合作举起锅的环境中展示了这种方法的有效性。

Jun, 2024

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

数字孪生的保守和风险意识离线多智能体强化学习

提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案，通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案，展示了其对轨迹规划问题的优势。

Feb, 2024

带有定向协调图的分布式合作多智能体强化学习

本文提出了一种分布式强化学习算法，该算法使用直接协调图和局部值函数，通过零阶优化方法进行条件估计，没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比，我们的算法保证了高可扩展性。

Jan, 2022

RiskQ：风险敏感的多智能体强化学习价值分解

多主体系统中的风险敏感协调要求和风险测量的多主体强化学习方法。

Nov, 2023

针对对手感知的去中心化网络多智能体强化学习算法

研究了去中心化的多智能体强化学习算法，引入了对抗性智能体对共识更新的漏洞，并提出了一种算法，使得非对抗性智能体在受限制的情况下达成共识。

May, 2023

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019