BriefGPT.xyz
Ask
alpha
关键词
hierarchical mdp
搜索结果 - 2
基于深度强化学习策略的分层控制器合成
我们提出了一种新颖的方法来解决以马尔可夫决策过程(MDP)建模的环境的控制器设计问题。具体而言,我们考虑了一个层次 MDP,该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习(DRL)来获取每个房间的低级策略,适
→
PDF
5 months ago
基于生成轨迹建模的环境设计层次化方法
无监督环境设计(UED)是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP(马尔可夫决策过程)的新框架,通过指导学生的性能,上层 MDP 来培训下层 MDP 学生代理。我们的算法 SH
→
PDF
9 months ago
Prev
Next