CORA: 连续强化学习智能体平台的基准、基线和度量标准

Oct, 2021

CORA: 连续强化学习智能体平台的基准、基线和度量标准

CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual Reinforcement Learning Agents

Sam Powers, Eliot Xing, Eric Kolve, Roozbeh Mottaghi, Abhinav Gupta

TL;DR本文介绍了 CORA 平台，该平台针对 Continual Reinforcement Learning 智能体提供了基准、基线和度量标准，其中基准旨在评估连续 RL 挑战的不同方面，而度量标准提供连续评估、隔离遗忘和零射前传递。同时，该平台还包括一组表现良好、开源的现有算法基线，旨在加速新 Continual Reinforcement Learning 算法的开发。

Abstract

Progress in continual reinforcement learning has been limited due to several barriers to entry: missing code, high compute requirements, and a lack of suitable benchmarks. In this work, we present →

continual reinforcement learning cora benchmarks metrics baselines

发现论文，激发创造

Continual World：一个用于连续强化学习的机器人基准测试

提出了 Continual World 基准，并进行了基于机器人任务的方法评估，该评估针对 Continual learning 中的前向迁移和 Catastrophic forgetting 进行优化，以提高方法在 RL 中的性能。

May, 2021

CARL：一种用于上下文和适应性强化学习的基准测试

CARL 是一个基于理论框架的 RL 基准环境集合，包含了多个经典控制，物理模拟，游戏和实际应用领域任务，该研究证明了在考虑上下文时，从策略学习中分离状态的表征学习可以更好地实现泛化。

Oct, 2021

深度强化学习在连续控制中的基准测试

研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现，经过系统评估发现一系列新的结果。

Apr, 2016

马拉松环境：基于现代视频游戏引擎的多智能体连续控制基准测试

使用 Unity 游戏引擎和 Unity ML-Agents 工具包实现了一套开源环境，用于深度强化学习和连续控制的基准测试，通过证明这些基准测试的使用性，展示了这些环境的鲁棒性以及降低训练时间的策略。

Feb, 2019

CORL：面向研究的深度离线强化学习库

CORL 是一个开源库，提供单文件实现的深度离线强化学习算法，强调简单的开发体验和现代化的分析跟踪工具，通过将方法实现隔离到不同的单个文件中，使得性能相关的细节更易识别，同时提供实验跟踪功能，可将指标、超参数、依赖等日志记录到云端，并通过对常用的 D4RL 基准测试进行基准测试，确保了实现的可靠性。

Oct, 2022

TRACE：大规模语言模型连续学习的全面基准

通过引入 TRACE 评估标准，本文介绍了大规模语言模型连续学习的挑战，并提出了 RCL 方法，将任务特定的线索与元理由相结合，以减少 LLMs 中的灾难性遗忘现象并加快对新任务的收敛。

Oct, 2023

BenchMARL: 多智能体强化学习基准

多智能体强化学习领域面临再现性危机，本文引入 BenchMARL 作为第一个用于标准化基准测试的训练库，具备高性能和最新技术实现，从而满足多智能体 PyTorch 用户的需求。

Dec, 2023

连续领域多任务学习基准环境

本文描述了一个基于 OpenAI Gym 框架的可扩展任务基准集，并使用信任区域策略优化进行了简单的基准测试，旨在为在连续领域中的多任务学习、迁移学习和终身学习进行系统比较提供参考。

Aug, 2017

连续离线强化学习的离线经验回放

本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题，并进行了实验验证。

May, 2023

CORe50: 一个用于连续物体识别的新数据集及基准

该论文提出了一种新的数据集和基准 CORe50，并引入了不同连续学习场景的基线方法来解决实际对象识别应用中面临的高维数据流持续学习难题。

May, 2017