Dec, 2023

安全的即时约束强化学习:激进探索的作用

TL;DR该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习(safe RL)。本文提出了一种算法 LSVI-AE,针对成本函数是线性的情况,达到了 $\tilde {\cO}(\sqrt {d^3H^4K})$ 的遗憾值和 $\tilde {\cO}(H \sqrt {dK})$ 的严格约束违规值;针对成本函数属于 Reproducing Kernel Hilbert Space 的情况,达到了 $\cO (H\gamma_K \sqrt {K})$ 的严格约束违规值。这些结果达到了对学习时间长度 $K$ 的最优依赖,与本文提供的下界相匹配,展示了 LSVI-AE 的高效性。其中,我们的方法设计鼓励积极的策略探索,提供了对具有一般成本函数和无关先前安全动作的安全 RL 的独特视角,可能具有独立的研究价值。