数字孪生的保守和风险意识离线多智能体强化学习

Feb, 2024

数字孪生的保守和风险意识离线多智能体强化学习

Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning for Digital Twins

Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab, Hirley Alves

TL;DR提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案，通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案，展示了其对轨迹规划问题的优势。

Abstract

Digital twin (DT) platforms are increasingly regarded as a promising technology for controlling, optimizing, and monitoring complex engineering systems such as next-generation wireless networks. An important challenge in adopting DT solutions is their reliance on data collected offline, lacking direct access to the physical environment. This limitation is pa

digital twin platforms multi-agent systems offline marl distributional rl conservative q-learning

发现论文，激发创造

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

离网 MARL: 一个数据集生成框架，具备合作离线多智能体强化学习基线

该研究为填补离线多智能体强化学习（MARL）领域中缺乏标准基准和评估方法的空白，提出了一个名为 OG-MARL 的离线 MARL 数据集和算法框架，包括一套标准评估方案。OG-MARL 的数据集本质上是从在线 MARL 基准中生成的，具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。

Feb, 2023

离线多智能体强化学习与安全约束的扩散模型

最近在多智能体强化学习（MARL）的进展中，其应用已扩展到各种安全关键场景。然而，大多数方法专注于在线学习，在实际环境中部署时存在重大风险。为了解决这一挑战，我们引入了一个创新的框架，将扩散模型与 MARL 范式相结合。通过风险缓解来增强多智能体采取的动作的安全性，并建模协同行动。我们的框架基于分散执行（CTDE）架构中的集中式训练，扩展了用于预测轨迹生成的扩散模型。此外，我们还结合了一种专门的算法来确保操作安全性。我们在 DSRL 基准测试上评估了我们的模型，并进行了对比实验。实验结果表明，我们的模型不仅符合严格的安全约束，而且在性能上优于现有的方法。这凸显了我们的方法在推动 MARL 在实际应用中的安全性和效能方面的潜力。

Jun, 2024

分散协作多智能体强化学习的部分调查

多智能体强化学习在最近几年变得非常流行。有许多方法可以将其分为三种主要类型：中心化训练和执行（CTE）、中心化训练分布式执行（CTDE）和分散化训练和执行（DTE）。该论文探讨了这些方法及其应用于合作型多智能体强化学习的相关问题。

May, 2024

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

离线多智能体强化学习协调问题的基于模型的解决方案

该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究，并提出了一种基于模型的离线多智能体近端策略优化算法（MOMA-PPO），利用合成的交互数据帮助智能体在策略调整中更好地协调，成功解决了现有算法在多智能体任务中出现的协作问题。

May, 2023

AI-Enabled 无线网络的单智能体和多智能体深度强化学习：教程

本文论述了强化学习在 AI 驱动的 6G 网络中的作用，特别是目前热门的多智能体深度强化学习方法，以及其在移动边缘计算、无人机网络和大规模无线接入等方面的最新研究进展与应用前景。

Nov, 2020

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

使用累积概率理论（CPT）的分布式采样型 actor-critic（AC）算法为网络聚合式马尔科夫博弈（NAMG）引入风险敏感性，实现主观感知的马尔科夫最优纳什均衡。实验结果表明，通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同，具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。

Feb, 2024