马拉松环境：基于现代视频游戏引擎的多智能体连续控制基准测试

AAAIFeb, 2019

马拉松环境：基于现代视频游戏引擎的多智能体连续控制基准测试

Marathon Environments: Multi-Agent Continuous Control Benchmarks in a Modern Video Game Engine

Joe Booth, Jackson Booth

TL;DR使用 Unity 游戏引擎和 Unity ML-Agents 工具包实现了一套开源环境，用于深度强化学习和连续控制的基准测试，通过证明这些基准测试的使用性，展示了这些环境的鲁棒性以及降低训练时间的策略。

Abstract

Recent advances in deep reinforcement learning in the paradigm of locomotion using continuous control have raised the interest of game makers for the potential of digital actors using active ragdoll. Currently, t

deep reinforcement learning continuous control open source environments unity game engine training time reduction

发现论文，激发创造

深度强化学习在连续控制中的基准测试

研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现，经过系统评估发现一系列新的结果。

Apr, 2016

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

连续领域多任务学习基准环境

本文描述了一个基于 OpenAI Gym 框架的可扩展任务基准集，并使用信任区域策略优化进行了简单的基准测试，旨在为在连续领域中的多任务学习、迁移学习和终身学习进行系统比较提供参考。

Aug, 2017

JaxMARL：基于 JAX 的多智能体强化学习环境

此研究论文利用 JAX 实现的开源代码库 JaxMARL，通过 GPU 加速以及更灵活的环境设计，提供了高效且全面的多智能体强化学习训练框架，有效应对了计算负担、样本复杂性等挑战。

Nov, 2023

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

基于奖励的可配置智能体：游戏风格连续体生成

本文提出了一种利用强化学习算法设计视频游戏测试的方法 --CARI 代理，相比于传统的基于奖励函数规划的算法，CARI 能更好地模拟多样的游戏风格，并能够通过单次训练达到传统方法的多倍效果，该新型代理可以用于游戏行为及平衡性调整等方面的研究。

Nov, 2022

CORA: 连续强化学习智能体平台的基准、基线和度量标准

本文介绍了 CORA 平台，该平台针对 Continual Reinforcement Learning 智能体提供了基准、基线和度量标准，其中基准旨在评估连续 RL 挑战的不同方面，而度量标准提供连续评估、隔离遗忘和零射前传递。同时，该平台还包括一组表现良好、开源的现有算法基线，旨在加速新 Continual Reinforcement Learning 算法的开发。

Oct, 2021

在 MuJoCo 环境中探索离散和连续控制任务的强化学习技术

利用快速物理模拟器 MuJoCo 在连续控制环境中运行任务，通过离散化方法比较 Q 学习和 SARSA 作为基准，逐步转向最先进的深度策略梯度方法 DDPG。在大量的回合中，Q 学习的得分超过了 SARSA，但在少数回合中，DDPG 表现更好。最后，通过微调模型超参数以期望在更少的时间和资源消耗上获得更好的性能。我们预期 DDPG 的新设计将大幅提高性能，但仅仅几个回合后，我们就能够达到相当不错的平均奖励。我们期望在充足的时间和计算资源下进一步提升性能。

Jul, 2023

强化学习任务导向对话管理基准测试环境

本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境，其中包括常用的参数算法和非参数算法，并使用公共 PyDial 工具包实现了这些环境和策略模型，以建立一个实验测试平台并促进可重现性的实验。

Nov, 2017

作为终身学习现实场景的持续协调

本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Mar, 2021