Jan, 2023

具有鲁棒性证明的策略优化

TL;DR本文介绍了一种基于证明高鲁棒性的策略优化框架,称为 CAROL,在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习,并直接导致在收敛时返回的高鲁棒性证书。 在四个 MuJoCo 环境中的实验评估显示,CAROL 能够学习到与使用最先进的鲁棒 RL 方法学习到的非认证策略性能相当的认证策略。