Jun, 2021

MADE: 探索性能通过最大化未探索区域的差异

TL;DR针对在线强化学习中高维稀疏奖励问题,提出一种新的探索方法,通过最大化下一个策略区域探测点的占用偏差,引入自适应正则化项平衡探索和开发,得出一种内在回报函数,可以轻松地与其他现有强化学习算法结合实现探索,实验结果表明,在 MiniGrid 和 DeepMind Control Suite 基准任务中具有明显的样本效率提高,并且优于基于计数的探索策略。