Jun, 2022

使用模型自由深度强化学习实现基于模型的强化学习中自适应的展开步长

TL;DR本文将调整 rollout length 作为元策略决策问题,通过动态改变超参数来优化在固定环境互动预算下通过模型强化学习学习到的最终策略,使用深度强化学习解决元策略决策问题,并在两个常见的强化学习环境中展示了其优势。