深度强化学习下的行走学习

Dec, 2018

Learning to Walk via Deep Reinforcement Learning

Tuomas Haarnoja, Sehoon Ha, Aurick Zhou, Jie Tan, George Tucker...

TL;DR本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Abstract

deep reinforcement learning (deep RL) holds the promise of automating the acquisition of complex controllers that can map sensory inputs directly to low-level actions. In the domain of robotic locomotion, deep RL

deep reinforcement learning robotic locomotion sample-efficient algorithm maximum entropy rl real-world robot

发现论文，激发创造

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020

在公园散步：学习无模型强化学习在 20 分钟内行走

研究展示了在现实世界中通过深度强化学习和机器学习算法，结合先进的机器人控制器，可以在仅 20 分钟内在多个室内和户外地形上学习四足动物的步态，以及对于设计决策的模拟环境评估。

Aug, 2022

学习对称和低能量行走

该论文提出了一种新颖的基于深度强化学习（DRL）方法来训练机器人的步态控制算法，并引入了一种新的课程学习方法来提供适当的物理辅助，帮助机器人保持平衡和前进。

Jan, 2018

拓展你的极限：基于实际场景的强化学习用于机器人运动的持续改进

基于 APRL 的深度强化学习 (RL) 框架，使四足机器人能够在现实世界中通过高效的训练学会行走，并且不断改进适应各种挑战性情况和动力学的变化。

Oct, 2023

四足机器人数据有效强化学习

本文提出了一种基于模型的机器人运动框架，在只采集 4.5 分钟（45,000 个控制步骤）的四足机器人数据的基础上实现了步行，通过引入跟踪多个时间步长上的模型预测的损失函数来准确地建模机器人的动力学，使学习到的模型可以进行实时控制，此方法比当前的无模型方法在样本效率上提高了一个数量级以上。

Jul, 2019

使用深度强化学习为双足机器人学习敏捷的足球技能

本文研究了深度强化学习在机器人学中的应用，通过模拟训练，在低成本仿真机器人上实现了动态环境下复杂足球比赛中从走路到踢球等一系列动作表现出稳定流畅的运动技能，并取得了不错的效果。

Apr, 2023

针对人形机器人的计划脚步双足行走学习

本研究基于深度强化学习控制器的支持下，通过学习遵循给定步长序列的原则，利用程序生成的步长方案实现了全向行走、原地转弯、站立和爬楼梯等多项功能，同时具备适应性强、无需预训练权重、不依赖参考动作等特点，为改进人形机器人在现实环境中行走鲁棒性提供了新思路。

Jul, 2022

多功能、动态和鲁棒的双足步行运动控制的强化学习

使用深度强化学习（RL）创建动态双足机器人的运动控制器的综合研究，包括开发可用于周期性行走、跑步、跳跃和站立等一系列动态双足技能的通用控制解决方案，该 RL 控制器采用新颖的双重历史架构，通过长期和短期的输入 / 输出（I/O）历史数据有效训练，并在模拟和实际世界的各种技能中始终表现优秀。

Jan, 2024

学习四肢机器人灵活动态技能

通过在仿真中训练神经网络策略并将其转移到现实的四足动态平衡系统，研究创造了一种快速、自动且高效的数据生成方案，从而实现了在四足机器人技能方面的进一步提升。

Jan, 2019

在受限的三维空间中运用强化学习实现灵巧的腿部步行动力学

使用深度強化學習的運動控制器在克服具挑戰性的地形（如崎嶇的岩石、不規則的地面和滑溜的表面）上取得了令人印象深刻的快速和穩健的運動方面的最近突破。但是，相對較少的研究投入到透過狹窄隧道或不規則空洞等局限的 3D 空間中的腿部移動性，這些地方會強加整體限制。因此，我們提議從目標導向的過程中學習在局限的 3D 空間中的運動技能。通過將傳統計劃師負責規劃到達遠處全球目標位置的路徑點與透過生成低層運動指令來跟隨這些路徑點的基於 RL 的策略結合，我們引入一種層次化的運動控制器來解決跟踪遠處導航目標的低效問題。在模擬中，我們的層次化方法成功地在具有挑戰性的局限的 3D 環境中導航，優於純粹的端到端學習方法和參數化的運動技能。我們還展示了在真實機器人上成功部署我們在模擬中訓練的控制器。

Mar, 2024