IJCAIJun, 2019
使用价值估算进行爬山搜索控制的 Dyan
Hill Climbing on Value Estimates for Search-control in Dyna
Yangchen Pan, Hengshuai Yao, Amir-massoud Farahmand, Martha White
TL;DR提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构,利用 HC 算法确定状态和行为,能够提高样本利用效率,并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。