Nov, 2019

为强化学习引入子目标自动机

TL;DR本文提出ISA,使用归纳逻辑程序设计帮助学习强化学习中的子目标,建立了可自我更新的自动机模型。实验证明,通过使用学习到的自动机进一步增强奖励调整和多任务迁移学习,ISA能够在多种格局提供同样优秀的表现且对可观察事件数量的影响进行了分析。