Feb, 2022

可解释的多层子目标发现强化学习

TL;DR提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。