Apr, 2014

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

TL;DR此篇论文探讨了在未知、随机环境中,通过建立模型、构造符合某些临时逻辑规则要求的 MDP,并通过 PAC-MDP 的方法,利用数据、空间和时间进行迭代更新,得到了一个在一定条件下接近最优的策略,从而达到在给定规则下最大化概率的目的。