基于改进近端策略优化的机械臂关节空间障碍物避免

Oct, 2022

基于改进近端策略优化的机械臂关节空间障碍物避免

IPPO: Obstacle Avoidance for Robotic Manipulators in Joint Space via Improved Proximal Policy Optimization

Yongliang Wang, Hamidreza Kasaei

TL;DR该研究提出一种新的基于邻近策略优化（PPO）的无模型强化学习方法，用于训练深度策略将任务空间映射到 6-DoF 机械臂的关节空间，用于解决机器人在随机目标和障碍物下进行的触及任务困难的问题。

Abstract

reaching tasks with random targets and obstacles is a challenging task for robotic manipulators. In this study, we propose a novel model-free rei

reinforcement learning robotic manipulators proximal policy optimization sim-to-sim method reaching tasks

发现论文，激发创造

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

DD-PPO：利用 25 亿帧学习接近完美的目标点导航

介绍分布式强化学习的 Decentralized Distributed Proximal Policy Optimization (DD-PPO) 方法，用于在资源密集型模拟环境中训练虚拟机器人进行导航，实现了近乎线性的扩展，通过训练并转移场景理解和导航策略，方法实现了身体智能上的图像预训练加特定任务微调。

Nov, 2019

基于视觉的机器人深度强化学习算法基准测试

本文通过比较常用强化学习算法及其变种在两个模拟视觉机器人问题中的表现，提出的策略包括提供实现 HER 算法所需中间预测目标，搭建空间和时间关注机制。结果表明，在这些环境中应用这些策略可以取得更好的结果。本文提出的基准测试方法为领域做出了新的贡献。

Jan, 2022

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

基于强化学习的自主机器人导航研究

基于强化学习的自主导航方法，采用深度 Q 网络（DQN）和近端策略优化（PPO）模型，通过机器人与环境的连续交互和实时反馈奖励信号，对路径规划和决策过程进行优化，提高机器人在未知环境中的导航能力和自适应性。

Jul, 2024

自动驾驶车辆的强化学习策略的定量与定性评估

优化自动驾驶车辆的交通动态是至关重要的，本文通过采用强化学习算法 —— 近端策略优化（PPO），得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法，并通过实证分析证明该方法可以降低时间和污染水平。

Sep, 2023

机器人移动操作的可达性行为先验学习

本文提出了一种混合强化学习算法和机器人可达性先验方法，加速了移动操作系统的学习速度，提高了机器人应对现实环境中的任务的表现。

Mar, 2022

基于深度强化学习的避障轨迹规划与鲁棒低层控制方法在机器人操纵器中的应用

在机器人学中，我们提出了一种集成无障碍深度强化学习轨迹规划器和新颖的自适应低级和关节级控制策略的方法，通过与环境的交互来激活学习阶段，解决了学习基于模型的复杂性和稳定性和安全性之间的挑战。

Feb, 2024

基于强化学习的建筑材料供应策略 —— 地震后建筑重建中使用机器人起重机和计算机视觉

本文提出采用具有先进 AI 算法的机器人起重机，在地震后提供基础设施重建所需的资源，并通过强化学习算法中的近端策略优化（PPO）进行三维提升路径规划，设计了详细的状态和奖励函数进行模型训练，结果显示在考虑障碍物的训练模型下，机器人起重机能够自动运输建筑材料至目标位置，并具备摆幅抑制、快速运输和避免碰撞。

Aug, 2023

使用先前政策指导的强化学习对双臂自由浮动空间机器人进行运动规划

我们提出了一种新的算法 EfficientLPT，通过使用混合策略、引入先验知识，以及采用无穷范数构建合理的奖励函数来提高强化学习方法的规划精度，从而解决了双臂自由浮动空间机器人动作规划中无法捕捉非合作对象的问题，并通过旋转速度不同的物体捕获任务验证了该方法的有效性。

Sep, 2022