Feb, 2021

通过元学习子目标发现选项

TL;DR使用元梯度法发现多任务强化学习环境中有用的选项的新方法,该方法使用一个管理器将发现的任务选项和基本操作结合在一起,并通过神经网络优化子目标的奖励和终止函数,实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项,并且帮助初学者的学习速度更快。