本论文旨在提高深度强化学习的可重复性,通过比较多个 HPO 工具,展示了 HPO 方法通常具有更高的性能和更低的计算开销,并提出采用从 AutoML 中建立的最佳实践,以及在广泛的搜索空间内进行原则性的 HPO。最终,论文推荐了一套适用于 RL 社区的最佳实践,以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。
Jun, 2023
本文提出了一种基于群体的自动化强化学习(AutoRL)框架,该框架在优化超参数和神经网络结构的同时训练智能体,提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中,我们将元优化所需的环境交互次数减少了一个数量级。
Sep, 2020
通过进行大规模的 1,500 个超参数与损失地形分析,研究揭示了机器学习模型中超参数和预测损失之间相互作用的关键要素,对多精度和迁移学习方法的成功提供了基础证据,并开发了专门的分析框架来促进对更广泛的 AutoML 任务的基本理解。
Nov, 2023
本文介绍了一种新的自动化强化学习算法,使用一种特定的时间变化 bandit 算法来优化持续性和类别性变量的集成,提高了 Procgen 基准测试的泛化性能。
Jun, 2021
本文研究了基于模型的强化学习中的自动超参数优化方法,实验证明,与人工调参相比,自动 HPO 能显著提高算法性能,并通过动态地调整多个超参数进一步优化模型性能,实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。
Feb, 2021
对多目标强化学习中超参数优化的挑战进行了初步调查,并提出了一种系统性方法来解决这个问题,该方法能够显著提高多目标强化学习代理的性能,并鉴定了未来的研究机会。
Oct, 2023
本文提出了一种复杂事件处理和时间模型相结合的框架来优化强化学习系统的超参数,同时利用历史信息和并行资源来提供反馈和调整超参数。作者在使用 RL(强化学习)的 5G 移动通信案例研究中测试了该方法,结果表明历史感知框架相比传统的超参数调整方法显著提高了性能。
Mar, 2023
本文介绍了一种自动化强化学习算法 —— 基于种群训练的方法,并提出了使用基于贝叶斯优化的信任域方法和使用代际方法在单次训练中联合学习架构和超参数的创新解决方案,通过在高度并行的 Brax 物理引擎中验证得到了良好的性能。
Jul, 2022
通过对自动强化学习的调查,我们提供了一个共同的分类法、详细讨论了每个领域并提出了研究中感兴趣的开放性问题。
Jan, 2022
该研究分析了强化学习中的超参数对泛化性能的影响,同时提出了一些经验性的指标来帮助理解超参数与泛化性能之间的复杂关系。
Jun, 2019