Feb, 2022

强化学习中三维旋转的 Bingham 策略参数化

TL;DR提出了一种新的策略参数化方式,Bingham Policy Parameterization(BPP),它可以更好地模拟 Bingham 分布,从而比高斯策略参数化在一系列强化学习任务中具有更好的旋转(四元数)预测能力。