BriefGPT.xyz
Ask
alpha
关键词
parametrizing policies
搜索结果 - 1
多模态轨迹优化的重参数化策略学习
我们研究了在高维连续动作空间中参数化强化学习(RL)策略的挑战。我们的目标是开发一种多模式策略,以克服常用的高斯参数化方法固有的限制。为了实现这一目标,我们提出了一个原则性框架,将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于
→
PDF
a year ago
Prev
Next