强化学习中历史感知的超参数优化框架

Mar, 2023

强化学习中历史感知的超参数优化框架

A Framework for History-Aware Hyperparameter Optimisation in Reinforcement Learning

Juan Marcelo Parra-Ullauri, Chen Zhen, Antonio García-Domínguez, Nelly Bencomo, Changgang Zheng...

TL;DR本文提出了一种复杂事件处理和时间模型相结合的框架来优化强化学习系统的超参数，同时利用历史信息和并行资源来提供反馈和调整超参数。作者在使用 RL（强化学习）的 5G 移动通信案例研究中测试了该方法，结果表明历史感知框架相比传统的超参数调整方法显著提高了性能。

Abstract

A reinforcement learning (RL) system depends on a set of initial conditions (hyperparameters) that affect the system's performance. However, defining a good choice of hyperparameters is a challenging problem. hyperparam

reinforcement learning hyperparameter tuning complex event processing temporal models history-aware epsilon-greedy logic

发现论文，激发创造

强化学习中的超参数及其调整方法

本论文旨在提高深度强化学习的可重复性，通过比较多个 HPO 工具，展示了 HPO 方法通常具有更高的性能和更低的计算开销，并提出采用从 AutoML 中建立的最佳实践，以及在广泛的搜索空间内进行原则性的 HPO。最终，论文推荐了一套适用于 RL 社区的最佳实践，以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。

Jun, 2023

Hyp-RL : 通过强化学习进行超参数优化

本论文将超参数优化问题建模为一系列决策问题，并用强化学习方法来解决，通过优化选择下一个待优化的超参数，从而提高模型性能。在 50 个数据集上的实验表明，该方法优于目前超参数学习领域的其他方法。

Jun, 2019

值为基础的深度强化学习中超参数选择的一致性

深度强化学习在各个领域取得了巨大的成功，本文通过算法设计和精心选择超参数的结合实现了算法的改进，重要超参数的选择对性能有很大的影响，本文通过广泛的实证研究，引入了一个新的指标来确定各种超参数的一致性和可靠性，并明确了在不同的训练模式下仍然保持一致性的调整。

Jun, 2024

论基于模型的强化学习中超参数优化的重要性

本文研究了基于模型的强化学习中的自动超参数优化方法，实验证明，与人工调参相比，自动 HPO 能显著提高算法性能，并通过动态地调整多个超参数进一步优化模型性能，实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。

Feb, 2021

多目标强化学习的超参数优化

对多目标强化学习中超参数优化的挑战进行了初步调查，并提出了一种系统性方法来解决这个问题，该方法能够显著提高多目标强化学习代理的性能，并鉴定了未来的研究机会。

Oct, 2023

高效自动化深度强化学习

本文提出了一种基于群体的自动化强化学习（AutoRL）框架，该框架在优化超参数和神经网络结构的同时训练智能体，提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中，我们将元优化所需的环境交互次数减少了一个数量级。

Sep, 2020

强化学习泛化中超参数及其相互依赖的实证研究

该研究分析了强化学习中的超参数对泛化性能的影响，同时提出了一些经验性的指标来帮助理解超参数与泛化性能之间的复杂关系。

Jun, 2019

结合超参数自动优化和奖励形状

深度强化学习在过去几年取得了显著进展，但是即使对于专家来说，找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择，因此我们提出了一种方法来同时优化超参数和奖励函数，实验证明综合优化可以显著改善性能，在一些环境中比基准性能好，并在其他环境中取得了竞争性表现，只有少量计算成本的增加。

Jun, 2024

层次协作超参数调整

本文演示了如何利用多智能体系统开发一个分布式技术，用于确定任意集合的超参数的近似最优值，并在机器学习和全局函数优化应用中进行了研究。研究表明，在更高的维度下，所提出的模型在分类误差和函数评估方面都优于其底层随机调优策略。

May, 2022

离线强化学习的超参数选择

本篇论文研究了针对离线数据选择最佳 RL 策略的离线超参数选择方法，并通过大规模实证研究表明：1）离线 RL 算法对超参数的选择不具有健壮性，2）离线 RL 算法和 Q 值估计方法等因素对超参数选择具有较大影响，3）通过控制这些因素，我们可以可靠地对超参数选择进行排名，从而选择最接近设定中最佳策略的策略。

Jul, 2020