ICMLMay, 2022

可达性约束强化学习

TL;DR本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题,并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中,RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。