基于模型的强化学习有效调度
本文研究了基于模型的强化学习中的自动超参数优化方法,实验证明,与人工调参相比,自动 HPO 能显著提高算法性能,并通过动态地调整多个超参数进一步优化模型性能,实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。
Feb, 2021
本文研究模型在强化学习算法中的使用,旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法,并探讨了模型在策略优化中的作用。实践中,作者发现模型生成的在线策略数据总是不如真实的离线数据。然而,通过将模型泛化能力的经验估计纳入到分析中,可以证明模型的使用是合理的。最后,作者展示了一种简单的方法,使用从真实数据中分支的短模型生成滚动数据,具有比其他基于模型的方法更好的样本效率,可以匹配最佳无模型算法的渐近性能,并能处理其它基于模型的算法不能处理的问题。
Jun, 2019
本文通过将 Janner 等人 (2019) 提出的定理扩展,分析了基于模型的元强化学习方法的性能保证,并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO),证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。
Jun, 2020
本文提出了一种基于群体的自动化强化学习(AutoRL)框架,该框架在优化超参数和神经网络结构的同时训练智能体,提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中,我们将元优化所需的环境交互次数减少了一个数量级。
Sep, 2020
探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题,并提出了一种全新的模型自适应框架 AMPO,使用 Wasserstein-1 距离来实现模型适应,结果在多项连续控制测试任务中实现了最先进的性能。
Oct, 2020
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
Dec, 2023
设计和推导出具有性能提升保证的高效的基于模型的强化学习算法具有挑战性,主要原因是模型学习和策略优化之间的高耦合。在本文中,我们理论上推导了一种优化目标,能够统一模型漂移和模型偏差,并制定了一种微调过程。该过程自适应地调整模型更新,以获得性能改进保证,同时避免模型过拟合。基于这些,我们开发了一种简单的算法 USB-PO(Unified model Shift and model Bias Policy Optimization)。实证结果表明,USB-PO 在几个具有挑战性的基准任务上实现了最先进的性能。
Sep, 2023
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021