IJCAIMay, 2023

基于 LTL 规约的样本高效无模型强化学习及最优性保证

TL;DR本研究提出一种基于强化学习的模型自由优化方法来学习行为策略,以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制,在各种 MDP 环境中进行实验,证明了其具有改进的样本效率和最优策略收敛性。