Feb, 2022
强化学习中三维旋转的 Bingham 策略参数化
Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning
Stephen James, Pieter Abbeel
TL;DR提出了一种新的策略参数化方式,Bingham Policy Parameterization(BPP),它可以更好地模拟 Bingham 分布,从而比高斯策略参数化在一系列强化学习任务中具有更好的旋转(四元数)预测能力。