Feb, 2024

离线安全强化学习的时态逻辑条件决策变压器

TL;DR我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架,称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT),在 DSRL 基准测试上的实证评估表明,与现有方法相比,SDT 学习安全且高奖励策略的能力更强,并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。