Jun, 2021
MADE: 探索性能通过最大化未探索区域的差异
MADE: Exploration via Maximizing Deviation from Explored Regions
Tianjun Zhang, Paria Rashidinejad, Jiantao Jiao, Yuandong Tian, Joseph Gonzalez...
TL;DR针对在线强化学习中高维稀疏奖励问题,提出一种新的探索方法,通过最大化下一个策略区域探测点的占用偏差,引入自适应正则化项平衡探索和开发,得出一种内在回报函数,可以轻松地与其他现有强化学习算法结合实现探索,实验结果表明,在 MiniGrid 和 DeepMind Control Suite 基准任务中具有明显的样本效率提高,并且优于基于计数的探索策略。