多智能体变压器加速 RL 以满足 STL 规范
为了解决多智能体强化学习中的可扩展性和非稳态性问题,我们提出了一种新的多智能体世界模型,通过学习分散的局部动力学来实现可扩展性,并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案,通过 Transformer 体系结构对复杂的局部动力学进行建模,从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge(SMAC)上的结果显示,该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。
Jun, 2024
本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计,实验证明相比没有 STL 指导的情况下,算法能够显著提高多智能体系统的性能和安全性。
Jun, 2023
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
通过引入局部集中式团队变换器 (LCTT) 方法,本研究解决了多智能体强化学习中的冗余计算问题,并提出了团队变换器架构 (T-Trans) 和领导权转换机制,实现了更加高效的学习收敛,同时无损于奖励水平。
Apr, 2024
本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现,发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳,并提供预训练模型和代码以鼓励该方向的进一步研究。
May, 2022
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018
通过将 Transformer 模块与强化学习相结合,开发了一个基于二次 Transformer 引导的时间逻辑框架(T2TL),以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定,可以将复杂任务分解为可学习的子目标,从而将非马尔可夫奖励决策过程转换为马尔可夫过程,并通过同时学习多个子任务来提高采样效率。
Sep, 2022
本文提出了一种基于 Transformer 架构和 MARL 算法的 T-MAAC 框架来稳定电力分配网络中的电压,并采用一种针对电压控制任务的新型辅助训练过程,以提高样本效率和促进基于 Transformer 模型的代表学习。
Jun, 2022
本文提出了一种名为 Scene-Rep Transformer 的决策算法,使用改进后的场景表示编码和连续预测潜在蒸馏来提高强化学习决策能力,通过在 5 种具有挑战性的模拟城市场景中验证,演示了数据效率和成功率,安全性和效率等方面的实质性改进。
Aug, 2022