ICLRDec, 2021

基于模型的强化学习的实验设计视角

TL;DR本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法,即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数,在每次迭代中,我们的算法最大化这个获取函数,选择提供最多信息的状态 - 动作对被查询,从而获得高效的数据驱动强化学习方法;在多个连续控制问题上实验,相比于基于模型或无模型的 RL 基线方法,本文方法学习出的最优策略所需样本量减少了 5-1000 倍。