关键词policy parameterization
搜索结果 - 2
- 扩散演员 - 评论者与熵调节器
提出了一种名为 DACER 的在线强化学习算法,通过利用扩散模型的能力来拟合多模态分布,增强策略的表征能力,并提出了一种估算扩散策略熵的方法,在 MuJoCo 基准和多模态任务上实验证明了算法的最先进性能。
- 强化学习中三维旋转的 Bingham 策略参数化
提出了一种新的策略参数化方式,Bingham Policy Parameterization(BPP),它可以更好地模拟 Bingham 分布,从而比高斯策略参数化在一系列强化学习任务中具有更好的旋转(四元数)预测能力。