Feb, 2023

利用额外安全预算在受限策略优化中进行高效探索

TL;DR本文提出了一种ESB-CPO算法,通过在早期阶段增加额外的安全预算来平衡探索和约束,以提高过程的效率,证明其在保证安全性的基础上能够显著提高性能。