Dec, 2022

基于邻近状态的强化学习探索

TL;DR本文研究了强化学习中的探索开发平衡问题,并提出两种基于邻近状态的无模型探索算法,其中一种方法(${ho}$-explore)在离散环境中相比于基准算法 Double DQN,在评估奖励回报方面提高了 49%。