学习复杂运动技能的开放式学习策略

Jun, 2022

学习复杂运动技能的开放式学习策略

Open-Ended Learning Strategies for Learning Complex Locomotion Skills

Fangqin Zhou, Joaquin Vanschoren

TL;DR本文提出了一种 Enhanced Paired Open-Ended Trailblazer (ePOET) 和 Soft Actor-Critic 策略相结合的方法 (ePOET-SAC)，用于教授机器人在复杂三维环境下高效行走的复杂技能。实验结果表明，该方法可以成功地学习机器人在不同复杂地形上的运动技能。

Abstract

Teaching robots to learn diverse locomotion skills under complex three-dimensional environmental settings via reinforcement learning (RL) is still challenging. It has been shown that training agents in simple settings before moving them on to complex settings improves the training proc

robotics reinforcement learning three-dimensional environments complex locomotion skills soft actor-critic

发现论文，激发创造

开放式双向拓荒者（POET）：不断生成日益复杂和多样化的学习环境及其解决方案

本文介绍了 Paired Open-Ended Trailblazer (POET) 算法，它同时探索了可能问题和解决方案的多个不同路径，允许这些解决方案在不同问题之间传输，从而促进创新，并提出通过这种算法可以不断创造新的复杂能力且能在不同领域产生启示性作用。

Jan, 2019

加强版 POET: 通过无限创造学习挑战及其解决方案进行无限制强化学习

本研究介绍了四项创新，通过改进 Paired Open-Ended Trailblazer 算法本身和外部创新，实现了迄今为止最开放的算法演示。增强版 POET 产生了解决广泛环境挑战的复杂行为，其中许多不能通过其他手段解决。

Mar, 2020

在受限的三维空间中运用强化学习实现灵巧的腿部步行动力学

使用深度強化學習的運動控制器在克服具挑戰性的地形（如崎嶇的岩石、不規則的地面和滑溜的表面）上取得了令人印象深刻的快速和穩健的運動方面的最近突破。但是，相對較少的研究投入到透過狹窄隧道或不規則空洞等局限的 3D 空間中的腿部移動性，這些地方會強加整體限制。因此，我們提議從目標導向的過程中學習在局限的 3D 空間中的運動技能。通過將傳統計劃師負責規劃到達遠處全球目標位置的路徑點與透過生成低層運動指令來跟隨這些路徑點的基於 RL 的策略結合，我們引入一種層次化的運動控制器來解決跟踪遠處導航目標的低效問題。在模擬中，我們的層次化方法成功地在具有挑戰性的局限的 3D 環境中導航，優於純粹的端到端學習方法和參數化的運動技能。我們還展示了在真實機器人上成功部署我們在模擬中訓練的控制器。

Mar, 2024

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

通过可微分物理实现复杂运动技能的学习

本文提出了一种可实践的学习框架，能够输出统一的神经网络控制器，具有显著提高任务复杂性和多样性的能力，并使用可微物理学实现训练。实验结果表明，在可微弹簧和材料点方法的模拟、复杂的步态任务和多个机器人设计方案上，我们的学习框架优于强化学习，能够更快地收敛，并且用户可以使用我们系统中训练的统一的神经网络控制器交互式控制软体机器人的运动并在多个目标之间切换。

Jun, 2022

针对人形机器人的计划脚步双足行走学习

本研究基于深度强化学习控制器的支持下，通过学习遵循给定步长序列的原则，利用程序生成的步长方案实现了全向行走、原地转弯、站立和爬楼梯等多项功能，同时具备适应性强、无需预训练权重、不依赖参考动作等特点，为改进人形机器人在现实环境中行走鲁棒性提供了新思路。

Jul, 2022

拓展你的极限：基于实际场景的强化学习用于机器人运动的持续改进

基于 APRL 的深度强化学习 (RL) 框架，使四足机器人能够在现实世界中通过高效的训练学会行走，并且不断改进适应各种挑战性情况和动力学的变化。

Oct, 2023

开放式学习的增强拓扑智能体

本文提出了一种名为 ATEP 的增强型拓扑 EPOET 算法来同时进化越来越具有挑战性的环境和智能体的控制器结构，并证明这种方法相比于固定神经网络结构的基线算法具有更强的泛化性能，同时采用基于物种的转移机制有利于进一步提升智能体的表现和泛化能力。

Oct, 2022

机器人跑酷学习

本文提出了一种以视觉为基础、具有多样化跑酷技能的单一端到端学习系统，使用简单奖励而无需参考动作数据，通过直接配合启发的强化学习方法生成并传输到四足机器人上，使其能够在复杂环境中自主选择并执行适当的跑酷技能。

Sep, 2023