微观尺度下环境对多智能体强化学习紧急策略的影响

Jul, 2023

微观尺度下环境对多智能体强化学习紧急策略的影响

Environmental effects on emergent strategy in micro-scale multi-agent reinforcement learning

Samuel Tovey, David Zimmer, Christoph Lohrmann, Tobias Merkt, Simon Koppenhoefer...

TL;DR本文采用 Langevin 分子动力学模拟，探究了温度在微观环境下多智能体强化学习中策略出现及有效性方面的影响，发现在高温下智能体能够发现新的任务完成策略，并介绍了一个用于研究微观智能体强化学习的 Python 包。

Abstract

multi-agent reinforcement learning (MARL) is a promising candidate for realizing efficient control of microscopic particles, of which micro-robots are a subset. However, the →

multi-agent reinforcement learning microscopic particles temperature langevin molecular dynamics simulations python package

发现论文，激发创造

多智能体强化学习中的化学趋化策略的出现

探究强化学习在生物系统中的应用，以了解智能体的信息处理方式，研究其在趋化性游动中的应用和策略。

Apr, 2024

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

多智能体强化学习用于微处理器设计空间探索

本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战，此方法相对于单一智能体，其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证，并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法，如 Proximal Policy Optimization 和 Soft Actor-Critic。

Nov, 2022

复杂实时战略游戏中的多智能体强化学习集中式控制

本研究通过在 Lux AI v2 Kaggle 比赛中应用 RL，使用一种集中式方法来训练 RL 代理，并报告了沿途的多个设计决策，以控制多种类型的变量大小编队群，从而解决多优化问题。

Apr, 2023

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

在多智能体环境中独立地从因果关系中学习

通过从因果关系的角度研究，本文探讨了多智能体强化学习中的懒惰代理问题，并将其与因果关系领域建立联系，通过实验证明个体观察与团队奖励之间存在因果关系，进一步提高多智能体强化学习中独立代理的性能和智能行为。

Nov, 2023

网络系统控制的多智能体强化学习

本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Apr, 2020

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022