ICLRFeb, 2020

Dyna 中基于频率的搜索控制

TL;DR本文提出了一种基于梯度和海森矩阵范数的频率度量策略,通过对价值函数高频区域进行模拟采样,实现了在 Dyna 中对学习效率提高的有效控制。