利用大规模并行深度强化学习在几分钟内学会行走

Sep, 2021

利用大规模并行深度强化学习在几分钟内学会行走

Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

Nikita Rudin, David Hoeller, Philipp Reist, Marco Hutter

TL;DR本文介绍并研究了一种在单个工作站 GPU 上使用大量并行性实现快速生成真实世界机器人任务策略的训练设置，其中包括不同训练算法组件在大规模并行模式下对最终策略性能和训练时间的影响分析和讨论，同时还介绍了一种新颖的游戏启发课程，适用于数千个模拟机器人的并行训练，并通过将策略转换到真实机器人以验证方法的有效性。

Abstract

In this work, we present and study a training set-up that achieves fast policy generation for real-world robotic tasks by using massive parallelism on a single workstation GPU. We analyze and discuss the impact o

robotic tasks massive parallelism training algorithm components simulated robots legged locomotion

发现论文，激发创造

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

在公园散步：学习无模型强化学习在 20 分钟内行走

研究展示了在现实世界中通过深度强化学习和机器学习算法，结合先进的机器人控制器，可以在仅 20 分钟内在多个室内和户外地形上学习四足动物的步态，以及对于设计决策的模拟环境评估。

Aug, 2022

深度强化学习的加速方法

探究了如何优化现有的深度强化学习算法以适应现代计算机，特别是在 CPU 和 GPU 的组合下使用许多并行模拟器实例进行训练，并建立了一个统一的并行化框架，使用 GPU 加速数据收集和训练，成功地在短短几分钟内使用整个 DGX-1 在 Atari 游戏中学习出成功的策略。

Mar, 2018

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020

DeepGait: 使用深度强化学习规划和控制四足步态

本文提出了一种新的神经网络政策训练技术，可用于在非平坦地形上的足式机器人的运动规划和控制。该方法结合了模型驱动的运动规划和强化学习的最新方法，并应用于一组包含挑战性地形场景的模拟测试中，证明了该方法的有效性。

Sep, 2019

深度强化学习的大规模并行方法

本文介绍了第一个大规模分布式深度强化学习的架构，使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件，在 Atari 2600 游戏中应用 Deep Q-Network 算法，获得了 41 个游戏的超越性能，并在大多数游戏中缩短了达成这些结果所需的时间。

Jul, 2015

四足机器人数据有效强化学习

本文提出了一种基于模型的机器人运动框架，在只采集 4.5 分钟（45,000 个控制步骤）的四足机器人数据的基础上实现了步行，通过引入跟踪多个时间步长上的模型预测的损失函数来准确地建模机器人的动力学，使学习到的模型可以进行实时控制，此方法比当前的无模型方法在样本效率上提高了一个数量级以上。

Jul, 2019

基于 GPU 加速的分布式强化学习机器人仿真

使用 GPU 加速物理引擎 NVIDIA Flex 模拟机器人学习在连续控制和运动任务上表现出了极大的优势，使用少量的 CPU 与单 GPU 即可短时间内训练出高效的机器人智能。

Oct, 2018

Sim-to-Real: 四足机器人学习敏捷运动

本文提出了一种利用深度强化学习技术自动化四足机器人运动设计过程的系统，能够从简单的奖励信号中学习四足运动，并可提供开环参考进行学习过程的控制，采用系统辨识来改进物理模拟器，利用物理环境随机与扰动设计控制器，并在物理模拟器中进行评估，成功在现实世界中部署。

Apr, 2018

深度强化学习的高效并行方法

提出一种高效并行化深度强化学习算法的框架，可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法，包括值函数和策略梯度算法，并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法，使用同步更新和在策略体验上训练，结果表明该算法在短时间内取得了 Atari 游戏领域的最新效果。

May, 2017