Nov, 2021

基于模型的强化学习有效调度

TL;DR本文提出了一个名为 AutoMBPO 的框架,可以自动调度模型驱动策略优化算法(MBPO)中的重要超参数,其中包括真实数据比例。在多项连续控制任务中,由 AutoMBPO 调度的超参数对 MBPO 的性能具有重要的改进作用,并且所找到的真实数据比例与理论分析得出的一致。