Sep, 2019
使用无模型强化学习从线性时态逻辑规范合成控制
Control Synthesis from Linear Temporal Logic Specifications using
Model-Free Reinforcement Learning
TL;DR本文提出了一种强化学习框架,以从在一个未知的随机环境中,根据给定的线性时间逻辑(LTL)规范合成控制策略,该环境可以被建模为一个马尔可夫决策过程(MDP)。我们学习一种策略,最大化满足LTL公式的概率,引入一种新的、基于LTL公式的奖励和路径相关的折扣机制,使得(i)最优策略有效地最大化了满足LTL目标的概率,(ii)使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后,我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。