RL-PGO：基于强化学习的平面姿态图优化

Feb, 2022

RL-PGO：基于强化学习的平面姿态图优化

RL-PGO: Reinforcement Learning-based Planar Pose-Graph Optimization

Nikolaos Kourtzanidis, Sajad Saeedi

TL;DR本研究提出了一种基于深度强化学习（DRL）的 2D 姿态图优化的环境和代理，将姿态图优化问题建模为部分可观察的马尔可夫决策过程，并评估了性能。实验结果表明，拥有该方法的迭代式求解器可以产生质量更高的姿态估计，因此，我们相信基于强化学习的 PGO 是进一步加快研究朝向全局最优算法的有前途的途径。

Abstract

The objective of pose SLAM or pose-graph optimization (PGO) is to estimate the trajectory of a robot given odometric and loop closing constraints. State-of-the-art iterative approaches typically involve the linearization of a non-convex objective function and then repeatedly solve a se

pose-graph optimization deep reinforcement learning markov decision process iterative-based solver 2d pose slam

发现论文，激发创造

通过稀疏有界平方和规划实现全局保证最优平面位姿图和地标 SLAM

该文章介绍了如何用稀疏 BSOS 分层算法将姿态 - 图和地标 - 图问题表述为多项式优化问题，并以全局最小化解决了这些问题，同时通过实验展示了该方法的卓越性能。

Sep, 2018

分布式可证明正确的位姿图优化

本文提出了第一个确凿无疑的分布式姿态图优化算法，该方法基于稀疏半定松弛，使用低秩 Riemannian Staircase 框架进行分布式优化，具有全局最优解的保证，并且所有组成部分均为本地协作算法。

Nov, 2019

基于注意力循环网络的全局姿态估计

我们设计了一种新的可微架构 Neural Graph Optimizer，由本地姿态估计模型、新颖的姿态选择模块和新颖的图优化过程组成，通过端到端的训练使网络自动学习与视觉里程计相关的领域特定特征，从而实现了 SLAM 的完整神经网络解决方案，并在模拟的 2D 迷宫和 3D ViZ-Doom 环境中展示了系统的有效性。

Feb, 2018

GO-SLAM：一致性 3D 即时重建的全局优化

GO-SLAM 是一种基于深度学习的稠密视觉 SLAM 框架，通过全局优化姿态和三维重建实时改进相机跟踪和重构方面的错误累积问题，并通过有效的闭环检测和在线全捆绑调整支持鲁棒的姿态估计和实时三维重建，同时在运行中实时更新隐式和连续的表面表示以确保全局一致性的三维重建，各种合成和真实世界数据集的结果表明，GO-SLAM 在跟踪鲁棒性和重建精度方面优于现有方法，并且具有多样性，可配合单目、立体和 RGB-D 输入工作。

Sep, 2023

PFRL: 无需姿态信息的强化学习在 6D 姿态估计中的应用

通过强化学习，使用 2D 图像注释作为微弱监督的 6D 姿态信息，我们构建了一个无需真实世界 6D 标签的 6D 姿态微调模型，从而实现了优化姿态模型的有效方法。

Feb, 2021

PRAGO：基于目标检测的可微分多视角姿态优化

通过优化序列的几何任务，我们提出了一种称为 PRAGO 的求解相机位姿的方法，该方法通过在无序图像上进行目标位置的细化来优化旋转和绝对位置，实现了在小型稀疏场景中相比于非可微求解器更好的性能。

Mar, 2024

VICAN：大规模相机网络的高效标定算法

通过引入一个动态元素 - 任意场景中可以自由移动的刚性物体，我们提出了一种新颖的方法来精确估计大型摄像头网络中的摄像头姿势，该方法可以可靠地从单张图像中推测出该物体的姿势，并解决了在直接估计摄像头之间相对姿势时遇到的挑战，从而实现了准确的摄像头姿势估计。

Mar, 2024

PoseAgent: 基于强化学习的受预算限制的 6D 物体位姿估计

本研究提出使用强化学习优化参数的方法，将计算机视觉中姿态估计系统转化为使用卷积神经网络表示的策略，经过训练得到的姿态估计方法在资源利用方面较传统方法有所提升。

Dec, 2016

多目标优化的深度强化学习

本文提出了一种通过深度强化学习和神经网络实现的多目标优化问题解决方案，其中采用分解思想将问题分解为一组标量优化子问题并针对每个子问题建立神经网络模型。通过邻域参数传递策略和 DRL 训练算法共同优化所有子问题的模型参数，并利用训练好的神经网络模型直接得到帕累托最优解。其中将多目标旅行商问题作为研究对象，使用 DRL-MOA 方法建模子问题为指针网络并与其他基准方法进行对比，在实验中表现出了较强的泛化能力和快速解决速度。

Jun, 2019

使用硬约束进行连续控制的简化策略优化

近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO)，用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作，RPO 算法采用了 GRG 的方法生成基本动作，并通过等式约束求解得到非基本动作。另外，还引入了基于减少梯度的动作投影过程，并应用改进的拉格朗日松弛技术来确保不等式约束得到满足。此外，为了解决目前缺乏复杂硬约束环境的问题，我们开发了三个新的基准测试任务：两个机器人操作任务和一个智能电网运行控制任务。通过这些基准测试，RPO 算法在累积奖励和约束违规方面显示出比之前的约束强化学习算法更好的性能。我们相信 RPO 算法及其新的基准测试将为将 RL 应用于具有复杂约束的现实问题打开新的机遇。

Oct, 2023