Sep, 2017

一种基于策略搜索的时间逻辑指定强化学习任务方法

TL;DR本文提出了一种基于时间逻辑规范的强化学习策略搜索方法,通过将时间逻辑公式转化为实值函数,来指导策略搜索过程,从而避免手动调整奖励函数的繁琐操作。