水族馆：通过多智能体强化学习算法探索捕食者 - 猎物动态的综合框架

Jan, 2024

水族馆：通过多智能体强化学习算法探索捕食者 - 猎物动态的综合框架

Aquarium: A Comprehensive Framework for Exploring Predator-Prey Dynamics through Multi-Agent Reinforcement Learning Algorithms

PDF

Michael Kölle, Yannick Erpelding, Fabian Ritz, Thomy Phan, Steffen Illium...

TL;DRAquarium 是一个开源的、全面的多智能体强化学习环境，旨在研究捕食者 - 被捕食者交互中的自发行为。该环境使用 PettingZoo 框架和 PPO 算法实现了资源高效的可视化，并证实了参数共享在提高协调性和样本效率方面优于个体学习。

Abstract

Recent advances in multi-agent reinforcement learning have prompted the modeling of intricate interactions between agents in simulated environments. In particular, the predator-prey dynamics have captured substan

multi-agent reinforcement learning predator-prey dynamics aquarium emergent behavior pettingzoo framework

发现论文，激发创造

PettingZoo: 多智能体强化学习的 Gym

介绍 PettingZoo 动物园库及附带的代理环境循环（“AEC”）游戏模型，PettingZoo 是多样的多代理环境的库，有一个通用的 Python API，用于加速多智能体强化学习（“MARL”）研究。

Sep, 2020

多智能体竞争引发的紧急复杂性

本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法，这些方法可以训练出丰富多彩、技能复杂的智能体。此外，我们指出，自我对抗训练可以产生超出环境本身复杂性的行为，并且自带课程设置，有助于智能体学习不同难度水平下的技能。

Oct, 2017

Atari 模型动物园：深度强化学习代理的分析、可视化和比较

本文介绍了 Atari Zoo 框架，其中包含了许多经过训练的深度强化学习算法在 Atari 游戏中的表现，并提供了易于使用的程序代码来加载、可视化和分析这些模型，以便进行深度强化学习算法的性能和表现方面的比较和研究。

Dec, 2018

竞争生存环境下的多智能体相互作用

本研究采用多智能体相互作用的方法，开发了一个可扩展的具有现实物理和人类相关语义的竞争环境，旨在解决强探索环境中的问题，并进行了多项实验以获得简单的新兴策略和未来改进的具体方向。

Jan, 2023

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

Pommerman 多智能体训练：课程学习与基于人口自我对弈的方法

该研究介绍了一个使用课程学习和基于群体的自我对弈相结合的系统，用于训练多智能体系统玩 Pommerman，并解决了稀疏奖励和合适匹配机制的两个挑战性问题。实验结果表明，我们训练的智能体可以在不需要盟友间通信的情况下胜过顶尖的学习智能体。

Jun, 2024

Google Research Football: 一种新的强化学习环境

介绍了一项新的强化学习环境 - 谷歌足球环境，提供支持多人和多代理实验的虚拟学习环境和用于测试和展示强化学习算法的三种难度场景与一组更简单的场景。

Jul, 2019

优化鱼鳍控制下推力性能的异步并行强化学习

通过使用强化学习算法，并结合流体 - 结构相互作用环境，发现鱼鳍射线控制策略的最佳方法，以实现卓越的推进性能。

Jan, 2024

神经 MMO：用于智能体训练和评估的大规模多智能体游戏环境

通过模拟 MMORPG 游戏和真实世界中的有限资源竞争环境，研究了大规模多智能体交互的学习和发展，实验表明，种群规模可以放大并刺激技能行为发展，产生优于小规模训练的代理人。

Mar, 2019

REPTILE: 一种主动实时深度强化学习自适应框架

该论文提出了一种名为 REPTILE 的自适应软件系统的通用框架，它完全采用主动方式，并依赖于基于深度强化学习的代理程序来响应事件，称为新奇性，这些新奇性可能影响系统的预期行为。该框架考虑两种类型的新奇性：与环境相关的和与物理架构本身相关的，预测出这些新奇性，提取出环境的时间变化模型，并使用适当的马尔可夫决策过程来处理实时设置，此外，我们的 RL 代理的架构会根据可能采取的行动进化。

Mar, 2022