强化学习中的经验设计

Apr, 2023

Empirical Design in Reinforcement Learning

Andrew Patterson, Samuel Neumann, Martha White, Adam White

TL;DR本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Abstract

empirical design in reinforcement learning is no small task. Running good experiments requires attention to detail and at times significant computational resources. While compute resources available per dollar ha

reinforcement learning empirical design statistical evidence hyper-parameters experimental bias

发现论文，激发创造

位置：强化学习研究中的基准测试受限

通过对 rigorous experiment designs 的计算成本的探究，本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。

Jun, 2024

评估真实世界机器人上深度强化学习算法的可重复性调查

本文探讨了强化学习中的无法重现性问题，提出了使用严格规范的评估方法来确保算法之间的公正比较，并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。

Sep, 2019

可验证的、可复制的和可重现的经验型机器学习研究的设计原则

通过提出一种供应用于实证研究的模型和指南，旨在减少机器学习领域中研究实践的差异性，建立统一的质量标准，提高实证研究的一致性、可靠性和影响力。

May, 2024

强化学习泛化中超参数及其相互依赖的实证研究

该研究分析了强化学习中的超参数对泛化性能的影响，同时提出了一些经验性的指标来帮助理解超参数与泛化性能之间的复杂关系。

Jun, 2019

强化学习算法的统计比较指南

本文介绍了一份关于如何严格比较增强学习算法的指南，包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外，我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现，并提供了指南和代码以进行 RL 算法性能的严格比较。

Apr, 2019

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

统计临界点边缘深度强化学习

本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Aug, 2021

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

值为基础的深度强化学习中超参数选择的一致性

深度强化学习在各个领域取得了巨大的成功，本文通过算法设计和精心选择超参数的结合实现了算法的改进，重要超参数的选择对性能有很大的影响，本文通过广泛的实证研究，引入了一个新的指标来确定各种超参数的一致性和可靠性，并明确了在不同的训练模式下仍然保持一致性的调整。

Jun, 2024

强化学习中的超参数及其调整方法

本论文旨在提高深度强化学习的可重复性，通过比较多个 HPO 工具，展示了 HPO 方法通常具有更高的性能和更低的计算开销，并提出采用从 AutoML 中建立的最佳实践，以及在广泛的搜索空间内进行原则性的 HPO。最终，论文推荐了一套适用于 RL 社区的最佳实践，以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。

Jun, 2023