Jul, 2023

带时间窗的概率时空约束下的强化学习

TL;DR我们提出了一种基于自动机理论的强化学习方法,用于复杂时空约束下的限时学习。该方法通过将有界时态逻辑约束转化为总自动机,并基于已知的转移概率上下界避免 “不安全” 动作,从而在学习过程中强制满足约束条件的概率达到预期值。