通过对 rigorous experiment designs 的计算成本的探究,本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。
Jun, 2024
本文探讨了强化学习中的无法重现性问题,提出了使用严格规范的评估方法来确保算法之间的公正比较,并强调了选取适当的度量标准和进行合适的统计分析来做出无偏见的结果报告。
Sep, 2019
通过提出一种供应用于实证研究的模型和指南,旨在减少机器学习领域中研究实践的差异性,建立统一的质量标准,提高实证研究的一致性、可靠性和影响力。
May, 2024
该研究分析了强化学习中的超参数对泛化性能的影响,同时提出了一些经验性的指标来帮助理解超参数与泛化性能之间的复杂关系。
Jun, 2019
本文介绍了一份关于如何严格比较增强学习算法的指南,包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外,我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现,并提供了指南和代码以进行 RL 算法性能的严格比较。
Apr, 2019
本文提出了一种全新的强化学习算法综合评估方法,旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性,且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。
Jun, 2020
本文通过案例研究 Atari 100k 游戏数据集,强调在少量训练运行的深度强化学习算法中,为保证结果准确性和防止领域进展停滞,不可忽略数据的不确定性,提出用区间估计来评估强化学习算法的表现,并在常用数据集上分析了已有算法的性能,提出更为严谨的性能评估方法,并配有开源库 rliable。
Aug, 2021
通过在多个商业机器人上实施我们引入的多个强化学习任务,通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度,揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感,为了获得最佳性能需要为每个任务重新调整参数。
Sep, 2018
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保持一致性的调整。
本论文旨在提高深度强化学习的可重复性,通过比较多个 HPO 工具,展示了 HPO 方法通常具有更高的性能和更低的计算开销,并提出采用从 AutoML 中建立的最佳实践,以及在广泛的搜索空间内进行原则性的 HPO。最终,论文推荐了一套适用于 RL 社区的最佳实践,以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。
Jun, 2023