旋转不变运动的目标条件批量强化学习

ICLRApr, 2020

旋转不变运动的目标条件批量强化学习

Goal-conditioned Batch Reinforcement Learning for Rotation Invariant Locomotion

Aditi Mavalankar

TL;DR提出一种新颖的方法，使用批量 RL 设置学习目标条件策略，通过使用非目标条件策略收集批量数据，利用数据增强生成不同方向下相同动作的轨迹，并使用编码器学习不变性，从而学习到可让智能体在任何方向上行走的目标条件策略。

Abstract

We propose a novel approach to learn goal-conditioned policies for locomotion in a batch rl setting. The batch data is collected by a poli

batch rl goal-conditioned policies locomotion data collection policy encoder

发现论文，激发创造

针对人形机器人的计划脚步双足行走学习

本研究基于深度强化学习控制器的支持下，通过学习遵循给定步长序列的原则，利用程序生成的步长方案实现了全向行走、原地转弯、站立和爬楼梯等多项功能，同时具备适应性强、无需预训练权重、不依赖参考动作等特点，为改进人形机器人在现实环境中行走鲁棒性提供了新思路。

Jul, 2022

学习对称和低能量行走

该论文提出了一种新颖的基于深度强化学习（DRL）方法来训练机器人的步态控制算法，并引入了一种新的课程学习方法来提供适当的物理辅助，帮助机器人保持平衡和前进。

Jan, 2018

使用跨模态转换器端到端学习视觉引导下的四足机器人运动

我们提出了一种使用基于 Transformer 的模型从配 proprioceptive 信息和高维度深度传感器输入中学习的强化学习（RL）来解决四足动物行走任务的方法。

Jul, 2021

在受限的三维空间中运用强化学习实现灵巧的腿部步行动力学

使用深度強化學習的運動控制器在克服具挑戰性的地形（如崎嶇的岩石、不規則的地面和滑溜的表面）上取得了令人印象深刻的快速和穩健的運動方面的最近突破。但是，相對較少的研究投入到透過狹窄隧道或不規則空洞等局限的 3D 空間中的腿部移動性，這些地方會強加整體限制。因此，我們提議從目標導向的過程中學習在局限的 3D 空間中的運動技能。通過將傳統計劃師負責規劃到達遠處全球目標位置的路徑點與透過生成低層運動指令來跟隨這些路徑點的基於 RL 的策略結合，我們引入一種層次化的運動控制器來解決跟踪遠處導航目標的低效問題。在模擬中，我們的層次化方法成功地在具有挑戰性的局限的 3D 環境中導航，優於純粹的端到端學習方法和參數化的運動技能。我們還展示了在真實機器人上成功部署我們在模擬中訓練的控制器。

Mar, 2024

反向学习的目标导向策略

我们提出了一个多步骤过程，通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列，并通过模仿学习训练神经网络策略，肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估，其中观测是 64×64 像素鸟瞰图像，并且可以表明该方法始终达到多个目标。

Dec, 2023

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

使用内禀动机学习目标条件策略的深度强化学习

本文提出了一种新的无监督学习方法，名为具有内在动机的目标导向策略（GPIM）。通过将抽象级别的策略与目标条件策略联合学习，本方法在各种机器人任务中证明了其有效性和高效性，大大优于先前的技术。

Apr, 2021

使用强化学习在限制的行人环境下实现机器人导航

本文提出了基于强化学习（RL）的方法来解决移动机器人在密闭空间中与行人互动的导航问题，探索了多个场景下训练准则的可复用性，并在两个真实环境的三维重建中表现出了良好的迁移能力。

Oct, 2020

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018