IJCAIJun, 2019

使用价值估算进行爬山搜索控制的 Dyan

TL;DR提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构,利用 HC 算法确定状态和行为,能够提高样本利用效率,并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。