强化学习自然环境基准

Nov, 2018

Natural Environment Benchmarks for Reinforcement Learning

Amy Zhang, Yuxin Wu, Joelle Pineau

TL;DR本文提出了三类全新的强化学习基准测试领域，包含了一定数量的自然世界的复杂性，同时支持快速而广泛的数据采集，此举将挑战强化学习社区开发更加稳健的算法以满足高水准的评估要求。

Abstract

While current benchmark reinforcement learning (RL) tasks have been useful to drive progress in the field, they are in many ways poor substitutes for learning with real-world data. By testing increasingly complex RL algorithms on low-complexity simulation environments, we often end up

reinforcement learning benchmark domains generalization data acquisition algorithm evaluation

发现论文，激发创造

CARL：一种用于上下文和适应性强化学习的基准测试

CARL 是一个基于理论框架的 RL 基准环境集合，包含了多个经典控制，物理模拟，游戏和实际应用领域任务，该研究证明了在考虑上下文时，从策略学习中分离状态的表征学习可以更好地实现泛化。

Oct, 2021

一个以工业控制问题为基础的基准测试环境

本研究介绍了一个用于桥接软件基准测试和真实工业应用的工业基准测试，并公开了其 Java 和 Python 代码及 OpenAI Gym 封装器。该基准测试设计为捕捉真实工业控制问题中常见情况的原型实验设置。

Sep, 2017

位置：强化学习研究中的基准测试受限

通过对 rigorous experiment designs 的计算成本的探究，本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。

Jun, 2024

DERAIL：面向奖励和模仿学习的诊断环境

通过开发一套简单的诊断任务，并对常见的奖励学习和模仿学习算法进行评估，本研究证实算法的性能高度依赖于实现细节，其中还揭示了套件如何确定设计缺陷并快速评估解决方案的案例研究。

Dec, 2020

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024

现实世界强化学习挑战的经验研究

本文针对强化学习在实际问题中难以部署的问题，提出了一系列的挑战，并通过 Markov 决策过程定义这些挑战并分析其影响，同时探讨了一些现有的解决方法。为了验证算法的可部署性，我们提出并开源了 realworldrl-suite 套件作为一个基准测试集。

Mar, 2020

现实世界强化学习的挑战

介绍了 Reinforcement Learning 在实际场景应用中的九个挑战及相应的方法和评估指标，并给出了一个示例领域用于实际 RL 研究的测试平台。

Apr, 2019

NeoRL: 一种近似于真实环境的离线强化学习基准

本文提出了一个名为 NeoRL 的近实际场景离线强化学习基准，对现有的离线 RL 算法进行了评估，并提出了应该将策略的性能与确定性行为策略版本相比较，从而在现实中实现 RL 技术应用的验证和部署。

Feb, 2021

连续领域多任务学习基准环境

本文描述了一个基于 OpenAI Gym 框架的可扩展任务基准集，并使用信任区域策略优化进行了简单的基准测试，旨在为在连续领域中的多任务学习、迁移学习和终身学习进行系统比较提供参考。

Aug, 2017