BriefGPT.xyz
Ask
alpha
关键词
maddpg
搜索结果 - 4
重温使用 Gumbel-Softmax 的 MADDPG 算法
本文探讨了在离散动作空间的场景下,使用多种代替 Gumbel-Softmax 估计器的方法来扩展 MADDPG 算法,并对各种性能指标进行了测量和分析,结果表明,在几项任务中,其中一种提出的估计方法比原始的 Gumbel-Softmax 在
→
PDF
a year ago
关于智能交通系统环境下多智能体深度确定性策略梯度及其可解释性探究
本文主要研究 Autonomous Driving 中 Multi-Agent RL 或 MARL 的问题,提出了基于 on-policy 和 off-policy RL 方法的 MAPPO 和 MADDPG 方法,并结合 SMARTS 环
→
PDF
a year ago
PowerGridworld: 电力系统中多智能体强化学习框架
本研究介绍了 PowerGridworld 软件包,它是一个轻量级、模块化、可定制的框架,用于创建面向电力系统的多智能体 Gym 环境,并可与现有的强化学习训练框架集成。通过两个案例研究,证明了 PowerGridworld 可以快速实现多
→
PDF
3 years ago
AAAI
多智能体软 Q 学习
研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题,并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比,该方法可实现更好的多智能体协作任务协调,达到联合行为空间中更好的局部最优。
PDF
6 years ago
Prev
Next