CaT: 约束作为终止条件的腿式运动强化学习

Mar, 2024

CaT: 约束作为终止条件的腿式运动强化学习

CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning

Elliot Chane-Sane, Pierre-Alexandre Leziart, Thomas Flayols, Olivier Stasse, Philippe Souères...

TL;DR通过将约束条件作为终止条件，我们提出了一种将约束融入深度强化学习中的新方法，该方法能够在不引入过多复杂性和计算负担的情况下有效地遵守约束条件，并为广泛应用带来了希望。

Abstract

deep reinforcement learning (RL) has demonstrated impressive results in solving complex robotic tasks such as quadruped locomotion. Yet, current solvers fail to produce efficient policies respecting hard constraints

deep reinforcement learning constraints robot learning constrained rl cat

发现论文，激发创造

不仅有奖励还有约束：应用于四肢机器人的运动

通过提出一种新颖的深度强化学习框架，我们展示了可用于训练复杂机器人系统的神经网络控制器，该框架通过引入约束条件减少了奖励工程的工作量，并实现了较高的任务绩效。

Aug, 2023

在受限的三维空间中运用强化学习实现灵巧的腿部步行动力学

使用深度強化學習的運動控制器在克服具挑戰性的地形（如崎嶇的岩石、不規則的地面和滑溜的表面）上取得了令人印象深刻的快速和穩健的運動方面的最近突破。但是，相對較少的研究投入到透過狹窄隧道或不規則空洞等局限的 3D 空間中的腿部移動性，這些地方會強加整體限制。因此，我們提議從目標導向的過程中學習在局限的 3D 空間中的運動技能。通過將傳統計劃師負責規劃到達遠處全球目標位置的路徑點與透過生成低層運動指令來跟隨這些路徑點的基於 RL 的策略結合，我們引入一種層次化的運動控制器來解決跟踪遠處導航目標的低效問題。在模擬中，我們的層次化方法成功地在具有挑戰性的局限的 3D 環境中導航，優於純粹的端到端學習方法和參數化的運動技能。我們還展示了在真實機器人上成功部署我們在模擬中訓練的控制器。

Mar, 2024

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023

使用决策变换器进行四足动物运动的微型强化学习

我们提出了一种方法，将模仿学习应用于资源受限的机器人平台，通过将模仿学习问题视为条件序列建模任务，使用专家示范增强的自定义奖励训练决策变压器，并利用量化和修剪等软件优化方案压缩生成模型，在 Isaac Gym 仿真环境中验证了该方法，在资源受限的四足机器人 Bittle 上实现了自然步态，并通过多次模拟展示了修剪和量化对模型性能的影响，结果表明，量化（降至 4 位）和修剪可将模型大小减小约 30％，同时保持有竞争力的奖励，使模型可以在资源受限的系统中投入使用。

Feb, 2024

拓展你的极限：基于实际场景的强化学习用于机器人运动的持续改进

基于 APRL 的深度强化学习 (RL) 框架，使四足机器人能够在现实世界中通过高效的训练学会行走，并且不断改进适应各种挑战性情况和动力学的变化。

Oct, 2023

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020

四足机器人运动的扭矩控制学习

本研究探索了一种基于扭矩的强化学习框架，此模型成功验证了对于模型控制四足动物而言，相较于基于位置的强化学习方法，基于扭矩的强化学习方法能够产生更好的奖励和更强的抗干扰能力，并能够使四足动物在各种地形上移动，是关于四足机器人端到端学习扭矩控制的首次模拟到实际应用的尝试。

Mar, 2022

四足行走安全强化学习

本文提出了一种安全的强化学习框架，用于设计控制策略，以确保腿部运动的安全，同时利用无模型的强化学习进行学习任务。在此框架基础上，本文进行了四项步态运动实验，并实现了显著的提升，包括节能、稳定性和动作变化。

Mar, 2022

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

继续学习的腿式机器人：在现实世界中微调运动策略

该论文提出了一种基于强化学习的实际机器人强化学习系统，通过在现实世界中微调机器人运动策略的少量训练，实现了 A1 四足机器人在多种环境中自主微调多种运动技能的能力。

Oct, 2021