DD-PPO：利用 25 亿帧学习接近完美的目标点导航

Nov, 2019

DD-PPO：利用 25 亿帧学习接近完美的目标点导航

DD-PPO: Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames

Erik Wijmans, Abhishek Kadian, Ari Morcos, Stefan Lee, Irfan Essa...

TL;DR介绍分布式强化学习的 Decentralized Distributed Proximal Policy Optimization (DD-PPO) 方法，用于在资源密集型模拟环境中训练虚拟机器人进行导航，实现了近乎线性的扩展，通过训练并转移场景理解和导航策略，方法实现了身体智能上的图像预训练加特定任务微调。

Abstract

We present decentralized distributed proximal policy optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machi

decentralized distributed proximal policy optimization distributed reinforcement learning resource-intensive simulated environments virtual robots navigation scene understanding

发现论文，激发创造

基于强化学习的自主机器人导航研究

基于强化学习的自主导航方法，采用深度 Q 网络（DQN）和近端策略优化（PPO）模型，通过机器人与环境的连续交互和实时反馈奖励信号，对路径规划和决策过程进行优化，提高机器人在未知环境中的导航能力和自适应性。

Jul, 2024

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于改进近端策略优化的机械臂关节空间障碍物避免

该研究提出一种新的基于邻近策略优化（PPO）的无模型强化学习方法，用于训练深度策略将任务空间映射到 6-DoF 机械臂的关节空间，用于解决机器人在随机目标和障碍物下进行的触及任务困难的问题。

Oct, 2022

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

HyperPPO：一种用于机器人控制的寻找小策略的可扩展方法

为实现记忆受限、高性能机器人的神经控制，需要具有较少参数的模型。本研究提出了一种基于图形超网络的在线策略强化学习算法 HyperPPO，能够同时估计多个较小神经网络架构的权重，并获得高性能的策略。我们的方法能够在保持采样效率的同时，为用户提供选择适合计算约束的网络架构。实验证明，我们方法的扩展性较好，更多的训练资源能够更快地收敛到性能更高的架构。我们还展示了 HyperPPO 估计的神经策略能够进行 Crazyflie2.1 四旋翼飞行器的分散控制。

Sep, 2023

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

通过数据正则化的自博弈强化学习实现与人类兼容的驾驶伙伴

用 HR-PPO 多智能体算法通过自我对抗训练实现人类驾驶参考政策偏离的小惩罚，从而在模拟中培训和评估具有可扩展性的自动驾驶系统，以达到高目标实现率、低离道率和低碰撞率，并在与人类驾驶协调度方面取得显著改进。

Mar, 2024

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

辅助任务加速学习目标点导航

本论文通过使用自监督的辅助任务（例如，预测两个自我中心观察之间采取的动作，预测轨迹中两个观察之间的距离等），并使用注意力机制组合个任务得到的表示向量，成功地提高了 PointNav 任务的样本和时间效率，超过了以前的最新研究成果，并在 40M 帧时将 DD-PPO 的性能提升了 0.16SPL。

Jul, 2020