ICMLFeb, 2022

最大状态熵探索中的非马尔可夫性的重要性

TL;DR该研究基于最大状态熵的探索框架,讨论了在有限的样本情况下,非马尔科夫探索的重要性,并提出了基于非马尔科夫确定性策略的新目标,并证明了标准马尔科夫策略的劣势,建议未来的工作将注重如何在可接受的复杂度下找到一个最优的非马尔科夫策略,从而提高在线强化学习的样本效率。