Apr, 2017

通过 GLTL 实现的环境无关任务规格

TL;DR提出了一种新的用于马尔可夫决策过程的任务规范语言,其设计旨在改进奖励函数,成为独立于环境的语言。该语言是 LTL 的一种变体,被扩展为概率规范,可以在有限时间内学习逼近。提供了几个小环境,展示了我们的几何 LTL 语言的优势,说明了它如何简单地用于规范标准强化学习任务。