Feb, 2023

一种近似最优的算法用于瞬时硬约束下的安全强化学习

TL;DR开发了第一个近似最优的安全强化学习算法,适用于具有不安全状态和行动及瞬间硬性约束和线性混合模型的情况。