AAAIApr, 2019

生成式探索与利用

TL;DR本文提出了一种新方法 Generative Exploration and Exploitation(GENE),通过自动生成初始状态鼓励代理探索环境并利用接收到的奖励信号,可以自适应地在探索和利用之间进行权衡并与任何强化学习算法结合使用,实证表明 GENE 在三个只有二进制奖励的任务中明显优于现有方法,并验证了渐进式探索和自动反转的出现。