BriefGPT.xyz
Ask
alpha
关键词
certified policies
搜索结果 - 1
具有鲁棒性证明的策略优化
本文介绍了一种基于证明高鲁棒性的策略优化框架,称为 CAROL,在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习,并直接导致在收敛时返回的高鲁棒性证书。 在四个 MuJoCo 环境中的实验评估显示,CAROL 能够学习
→
PDF
a year ago
Prev
Next