Oct, 2021

强化学习规范转换框架

TL;DR提出了一个形式框架,为定义不同形式目标的 RL 任务之间的转换提供了形式化定义,研究了这种转换的保持最优策略、收敛和稳健性的概念,证明了从 LTL 规范到基于奖励的规范的某些缩减不存在,证明了 RL 算法不存在 PAC-MDP 保证安全规范。