本文研究了基于模型的强化学习中的自动超参数优化方法,实验证明,与人工调参相比,自动 HPO 能显著提高算法性能,并通过动态地调整多个超参数进一步优化模型性能,实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。
Feb, 2021
本文提出了一种基于贝叶斯优化的方法,该方法可以利用学习算法的迭代结构来有效地调整超参数。在深度强化学习和卷积神经网络训练中,我们的算法通过选择最佳超参数的方式,以最小时间成本实现了调优。
Sep, 2019
对多目标强化学习中超参数优化的挑战进行了初步调查,并提出了一种系统性方法来解决这个问题,该方法能够显著提高多目标强化学习代理的性能,并鉴定了未来的研究机会。
Oct, 2023
本论文旨在提高深度强化学习的可重复性,通过比较多个 HPO 工具,展示了 HPO 方法通常具有更高的性能和更低的计算开销,并提出采用从 AutoML 中建立的最佳实践,以及在广泛的搜索空间内进行原则性的 HPO。最终,论文推荐了一套适用于 RL 社区的最佳实践,以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。
Jun, 2023
本文提出了一种基于代理的协作技术,以找到任意一组超参数(或决策变量)的近似最优值,其设计了分布式搜索操作的分层代理架构,使用基于自适应宽度的随机采样技术进行合作搜索,并在机器学习和全局函数优化应用中,通过与两种常用随机调整策略的比较得出,该模型在多维度和设备资源有限的情况下优于其他方法。
Mar, 2023
本文提出了一种复杂事件处理和时间模型相结合的框架来优化强化学习系统的超参数,同时利用历史信息和并行资源来提供反馈和调整超参数。作者在使用 RL(强化学习)的 5G 移动通信案例研究中测试了该方法,结果表明历史感知框架相比传统的超参数调整方法显著提高了性能。
本文提出了一种新的基于 SMBO 和贝叶斯学习的自动构建学习模型合集的方法,实验证明其优于传统的 SMBO 方法在回归以及分类数据集上的表现。
Feb, 2014
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保持一致性的调整。
Jun, 2024
本文通过 MetaRLBO,提出了一种对于生物序列的加速设计方法,使用 Meta-Reinforcement Learning 训练自回归生成模型,以 Bayesian Optimization 为辅助选择出有前途的序列,获得较强的鲁棒性和相对具有竞争力的结果。
Sep, 2022
本文提出了一种结合贝叶斯优化和基于 Bandit 的方法的实用超参数优化方法,该方法在各种类型的问题上都优于贝叶斯优化和 Hyperband,并且具有强大的任何时候性能和快速收敛到最佳配置的优势,对高维度的玩具函数、支持向量机、前馈神经网络、贝叶斯神经网络、深度强化学习和卷积神经网络都适用。
Jul, 2018