Oct, 2022

随机动作 vs 随机策略:基于模型的直接策略搜索的引导

TL;DR本文研究了初始数据收集方法对动态模型学习的影响,并比较了两个文献中使用的初始化方法,结果表明任务依赖因素可能对每种方法都有害,建议探索混合方法。