Jul, 2023

先探索,再利用:元学习智能探索

TL;DR提出了一种新的元强化学习框架(First-Explore),它有两个策略:一个策略仅学习探索,另一个策略仅学习开发,该方法避免了尝试同时进行探索和开发的冲突,解决了普通 RL 和元 RL 方法中学习智能探索的核心障碍,提高了样本效率,并在需要牺牲奖励的领域中优于传统 RL 和元 RL 方法,从而可以学习人类级别的探索,解决具有挑战性的未知难探索领域。