Sep, 2020

强化学习中子目标自动机的归纳与利用

TL;DRISA 是一种学习和利用强化学习中子目标的方法,通过交错强化学习和感知高级事件的子目标自动机的归纳来学习如何到达任务目标状态,该方法使用一种现有的逻辑编程系统,使这些子目标表示为基于常命题逻辑的逻辑公式,并保证了最少状态的自动机归纳和对称性破缺机制。在多个问题上的实验表明,该方法可用于学习成功的策略,并达到与人工预设子目标相当的平均奖励水平。