位置：强化学习研究中的基准测试受限

ICMLJun, 2024

位置：强化学习研究中的基准测试受限

Position: Benchmarking is Limited in Reinforcement Learning Research

Scott M. Jordan, Adam White, Bruno Castro da Silva, Martha White, Philip S. Thomas

TL;DR通过对 rigorous experiment designs 的计算成本的探究，本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。

Abstract

Novel reinforcement learning algorithms, or improvements on existing ones, are commonly justified by evaluating their performance on benchmark environments and are compared to an ever-changing set of standard algorithms. However, despite numerous calls for improvements, →

reinforcement learning algorithms benchmark environments experimental practices rigorous experiment designs additional experimentation paradigm

发现论文，激发创造

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

基于模型的强化学习基准测试

本文为了推动模型基强化学习（Model-based Reinforcement Learning, MBRL）的研究，收集了大量 MBRL 算法，并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法，并探讨了 MBRL 算法之间的主要差异和研究挑战。

Jul, 2019

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

强化学习自然环境基准

本文提出了三类全新的强化学习基准测试领域，包含了一定数量的自然世界的复杂性，同时支持快速而广泛的数据采集，此举将挑战强化学习社区开发更加稳健的算法以满足高水准的评估要求。

Nov, 2018

强化学习中的经验设计

本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Apr, 2023

一个以工业控制问题为基础的基准测试环境

本研究介绍了一个用于桥接软件基准测试和真实工业应用的工业基准测试，并公开了其 Java 和 Python 代码及 OpenAI Gym 封装器。该基准测试设计为捕捉真实工业控制问题中常见情况的原型实验设置。

Sep, 2017

统计临界点边缘深度强化学习

本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Aug, 2021

有意义的深度强化学习

本研究主要探讨如何提高深度强化学习领域中对实验结果的可重现性，为此研究了现有方法的可重现性、实验技术和报告程序，并提出了指导方针以使未来的研究结果更易于重现和解释。

Sep, 2017

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

基准彩票

本文提出了 “基准测试彩票” 的概念，以描述机器学习基准测试过程的整体脆弱性，指出基准测试流程中的许多因素可能导致某种方法被认为优越。同时，本文通过选择不同的基准任务，揭示了算法的相对性能可能会显著改变，强调了当前范式的脆弱性，并提出了缓解这种情况的建议。

Jul, 2021