多智能体深度强化学习中的置换不变评论家
本文研究深度强化学习在多智能体领域的应用,提出一种基于演员-评论家方法的适应性策略,可成功学习需要多智能体协作的复杂策略,并通过使用每个智能体的策略集进行训练,得到了更强大、更健壮的策略。在合作和竞争场景中,我们的方法相比现有方法能够发现各种物理和信息协调策略。
Jun, 2017
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
本文介绍了一种基于深度强化学习的算法,通过学习潜在表示来加速图像的强化学习,提出了随机潜在Actor-Critic(SLAC)算法,并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。
Jul, 2019
本文探讨了如何将演员-评论家(Actor-Critic)方法在深度强化学习中,尤其是异步优势演员评论家(A3C)与代理建模相结合。我们提出了两种体系结构来执行代理建模,旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明,所提出的体系结构稳定了学习,并在学习期望报酬最佳响应时优于标准A3C体系结构。
Jul, 2019
本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法(独立学习、集中式多智能体策略梯度、价值分解)在多样化的合作多智能体学习任务中的表现,为算法在不同学习任务中的预期性能提供参考,并提供了有关不同学习方法有效性的见解。我们开源了EPyMARL,延伸了PyMARL代码库以包括其他算法,并允许对算法实现细节进行灵活配置,例如参数共享。最后,我们还开源了两个多智能体研究的环境,重点是在稀疏奖励下的协调。
Jun, 2020
该研究提出了一种基于排列不变性和排列等变性思想的多智能体强化学习框架,它包括动态排列网络和超策略网络等实现方式,实验证明这种方法能够显著提高已有多智能体强化学习算法的性能和学习效率,并在SMAC等环境中实现了前所未有的100%胜率。
Mar, 2022
通过限制输入的排列和尺寸,构建了一种可以灵活应对变化,具有新型ANN模型的结构,该模型能够在多个控制问题上表现出ANN所缺乏的灵活性,并且可以处理输入索引的快速排列,证明了其在很大程度上具有优越性。
May, 2022
我们研究了在未知奖励扰动情况下的强化学习,引入了一种自适应分布式奖励评论家模型,理论上证明它能在技术条件下恢复真实奖励,在离散和连续控制任务中取得了最高回报,甚至在未定向的扰动条件下也能超过基准线的设计。
Jan, 2024
一项关于使用自监督方法改进泛化性能、处理图形对称注意力及展示改进结果的研究,使用Symmetry-Invariant Transformer (SiT)扩展Vision Transformer (ViT)的方法在MiniGrid、Procgen RL基准测试上展示了优于ViTs的泛化能力,并在Atari 100k和CIFAR10上体现了更高的样本效率。
Jun, 2024