关键词continuous state and action spaces
搜索结果 - 3
- 具有鲁棒性证明的策略优化
本文介绍了一种基于证明高鲁棒性的策略优化框架,称为 CAROL,在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习,并直接导致在收敛时返回的高鲁棒性证书。 在四个 MuJoCo 环境中的实验评估显示,CAROL 能够学习 - 具有形式验证探索的神经符号强化学习
提出 Revel:一种部分神经强化学习(RL)框架,用于在连续状态和动作空间中保证安全探索。通过两个策略分类来解决神经网络验证中的计算难题,并将学习算法投射到安全符号子集中,从而实现不需要显式验证神经网络的安全探索。实验结果显示,Revel - ICLR学习多级层次结构及回溯
本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC),该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题,