强化学习中三维旋转的 Bingham 策略参数化

Feb, 2022

强化学习中三维旋转的 Bingham 策略参数化

Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning

Stephen James, Pieter Abbeel

TL;DR提出了一种新的策略参数化方式，Bingham Policy Parameterization（BPP），它可以更好地模拟 Bingham 分布，从而比高斯策略参数化在一系列强化学习任务中具有更好的旋转（四元数）预测能力。

Abstract

We propose a new policy parameterization for representing 3D rotations during reinforcement learning. Today in the continuous control reinforceme

reinforcement learning policy parameterization bingham distribution rotation prediction 6d pose output

发现论文，激发创造

一种概率旋转表示对称形状的高效可计算 Bingham Loss 函数

本文研究物体姿态估计中的旋转表示方式，提出了一种在 Bingham 分布下易于实现和计算的负对数似然损失函数，并证明了其对称性能够良好捕捉目标物体的共性。

May, 2023

通过旋转拉普拉斯分布实现对 SO（3）的鲁棒概率建模

本研究提出了一种新的基于 Laplace 分布的旋转概率模型，相较于高斯 Bingham 分布和 Matrix Fisher 模型更具鲁棒性，可以提高旋转回归任务的性能，并在半监督旋转回归和对称对象多解决方案空间等方面具有优势。

May, 2023

多模态轨迹优化的重参数化策略学习

我们研究了在高维连续动作空间中参数化强化学习（RL）策略的挑战。我们的目标是开发一种多模式策略，以克服常用的高斯参数化方法固有的限制。为了实现这一目标，我们提出了一个原则性框架，将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于潜变量，我们导出了一种新颖的变分下界作为优化目标，以促进环境的探索。然后，我们提出了一种实用的基于模型的 RL 方法，称为重新参数化策略梯度（RPG），它利用多模式策略参数化和学习的世界模型来实现强大的探索能力和高效数据利用率。实证结果表明，我们的方法可以帮助 Agent 在具有密集奖励的任务中避免局部最优值，并通过结合面向对象的内在奖励来解决具有挑战性的稀疏奖励环境。我们的方法在各种任务中始终优于以前的方法。项目页面提供了代码和补充材料。

Jul, 2023

一个在 SO (3) 上受拉普拉斯启发的概率旋转估计分布

本文提出了一种基于 Laplace 分布的 Rotation Laplace 分布，用于解决单 RGB 图像 3DoF 旋转估计的问题，其具有鲁棒性和更好的收敛效果，并在概率和非概率基线上实现了最先进的旋转回归任务表现。

Mar, 2023

在线 3D 装箱强化学习解决方案（附缓冲区）

本文提出了一种基于强化学习框架的三维装箱问题（3D-BPP）解决方案，其中引入了一个缓冲区以允许多物品动作选择，并提出了一种采用容器物品对称性的数据增强策略，采用类似于 AlphaGo 的模型 RL 方法进行实现，用单线程和 GPU 训练该框架，得出了在空间利用率方面优于现有成果的解决方案。

Aug, 2022

关于不确定深度旋转学习的 SO (3) 置信度的平滑表示

本文介绍了一种用于学习模型的 Symmetric Matrix 表征方法，它满足平滑性和对单元四元数的置信度建模，可用于机器人感知领域中的精确旋转估计，包括 VO 和对象姿态估计。作者针对点云数据和图像数据进行了实证验证，并证明该方法可有效提高对未知环境及图像的鲁棒性。

Jun, 2020

基于 Bingham 分布的方向递归估计

探讨了一个基于 Bingham 分布的递归滤波器在方向数据上的应用，并发现这种滤波器可以解决在传统 Kalman 滤波器中不能很好解决的问题，并且在现实应用中易于处理。针对此问题的设置可以很好地用于圆形过滤问题，其呈 180 度对称性，并且易于扩展为四元数以跟踪任意三维方向。

Apr, 2013

连续控制中的泛化和简洁性

用简单的线性和 RBF 参数编制的策略可以训练和解决多种连续控制任务，性能与使用更复杂的参数编制（如全连接神经网络）得到的最新结果相当。采用不同的初始状态分布进行训练可以产生更好的泛化全局策略，从而允许系统从大的在线扰动中恢复。

Mar, 2017

ReACT: 使用 B 样条几何对控制器参数化进行强化学习

应用深度强化学习和 N 维 B 样条几何图形，通过自适应控制器参数的 DRL 代理来改进工业应用中的控制结构，并在工业控制结构的参数化任务上进行训练和评估。

Jan, 2024

在线 3D 装箱的可调鲁棒强化学习

在线 3D 装箱问题（3D-BPP）的有效政策设计一直是一个长期的挑战，本文提出了可调整鲁棒性强化学习（AR2L）框架，通过调整鲁棒性权重实现策略在平均情况和最坏情况下的平衡，以提升策略的鲁棒性同时保持较高的性能水平。

Oct, 2023