Sep, 2018

无模型强化学习中的 Omega-Regular 目标

TL;DR以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。