Sep, 2022

基于逻辑约束强化学习的认证策略合成

TL;DRLCRL 使用 Limit Deterministic Buchi Automata(LDBA)来表达给定的线性时间规范,并利用 LDBA 结构来实时塑造强化学习算法的奖励函数。在适当假设下,理论保证强化学习算法收敛到最优策略,最大化满足概率。案例研究表明,相对于传统 RL 方法,由于 LDBA 引导的探索和 LCRL 的无模型架构,我们观察到 CCRL 的鲁棒性表现更好,而且在可应用于 LTL 规范的情况下,性能也得到了良好的扩展。