Feb, 2022

面向符号自动机编码目标的无模型强化学习

TL;DR本文提出使用符号自动机的形式规范,来代替马尔可夫奖励,并定义了使用潜在奖励的策略,来提高强化学习的收敛性。