使用决策变换器进行四足动物运动的微型强化学习

Feb, 2024

使用决策变换器进行四足动物运动的微型强化学习

Tiny Reinforcement Learning for Quadruped Locomotion using Decision Transformers

Orhan Eren Akgün, Néstor Cuevas, Matheus Farias, Daniel Garces

TL;DR我们提出了一种方法，将模仿学习应用于资源受限的机器人平台，通过将模仿学习问题视为条件序列建模任务，使用专家示范增强的自定义奖励训练决策变压器，并利用量化和修剪等软件优化方案压缩生成模型，在 Isaac Gym 仿真环境中验证了该方法，在资源受限的四足机器人 Bittle 上实现了自然步态，并通过多次模拟展示了修剪和量化对模型性能的影响，结果表明，量化（降至 4 位）和修剪可将模型大小减小约 30％，同时保持有竞争力的奖励，使模型可以在资源受限的系统中投入使用。

Abstract

resource-constrained robotic platforms are particularly useful for tasks that require low-cost hardware alternatives due to the risk of losing the robot, like in search-and-rescue applications, or the need for a large number of devices, like in swarm robotics. For this reason, it is cr

resource-constrained robotic platforms imitation learning conditional sequence modeling quantization pruning

发现论文，激发创造

Sim-to-Real: 四足机器人学习敏捷运动

本文提出了一种利用深度强化学习技术自动化四足机器人运动设计过程的系统，能够从简单的奖励信号中学习四足运动，并可提供开环参考进行学习过程的控制，采用系统辨识来改进物理模拟器，利用物理环境随机与扰动设计控制器，并在物理模拟器中进行评估，成功在现实世界中部署。

Apr, 2018

四足机器人运动的扭矩控制学习

本研究探索了一种基于扭矩的强化学习框架，此模型成功验证了对于模型控制四足动物而言，相较于基于位置的强化学习方法，基于扭矩的强化学习方法能够产生更好的奖励和更强的抗干扰能力，并能够使四足动物在各种地形上移动，是关于四足机器人端到端学习扭矩控制的首次模拟到实际应用的尝试。

Mar, 2022

使用强化学习和生成式预训练模型实现四足机器人的逼真敏捷和游戏

通过使用动物和人类的知识来激发机器人创新，我们提出了一个框架，使四肢机器人能够在复杂环境中具备像真实动物一样的灵活性和策略。通过利用先进的深度生成模型产生模拟动物行为的运动控制信号，我们的方法通过预训练感知动物运动的生成模型，将原始知识保留并重复利用于环境适应性学习阶段，最终在复杂的下游任务中通过任务特定控制器解决任务，从而推动了机器人控制的前沿。

Aug, 2023

通过模仿动物学习敏捷机器人运动技能

本研究提出了一种基于模仿学习的系统，使机器人可以通过模仿真实世界的动物学习敏捷的运动技能，并演示了该系统的有效性。

Apr, 2020

继续学习的腿式机器人：在现实世界中微调运动策略

该论文提出了一种基于强化学习的实际机器人强化学习系统，通过在现实世界中微调机器人运动策略的少量训练，实现了 A1 四足机器人在多种环境中自主微调多种运动技能的能力。

Oct, 2021

面向四足机器人的连续强化学习

四足机器人的持续学习方案探讨了在不同环境中顺序训练并评估其性能的能力，以洞察前向和后向技能传递的程度，以及机器人对先前获得技能的遗忘程度，以期提高其在真实场景中的适应性和性能。

Nov, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

学习四肢机器人灵活动态技能

通过在仿真中训练神经网络策略并将其转移到现实的四足动态平衡系统，研究创造了一种快速、自动且高效的数据生成方案，从而实现了在四足机器人技能方面的进一步提升。

Jan, 2019

为实现稳健高效的腿式运动而学习接触自适应控制器

本研究提出了一个层次框架，将基于模型的控制和强化学习相结合，为四足动物（Unitree Laikago）合成鲁棒控制器。通过学习选择一套原语响应环境中的变化，使其适应复杂的环境变化，并具有更高的能源效率和更强的鲁棒性。

Sep, 2020

四足动物运动的分层强化学习

本文介绍一种利用层次化框架实现四足机器人路径跟踪任务的方法，其中高层策略以潜在空间向低层策略发出指令，并控制其执行的时间，低层策略使用潜在指令和机器人传感器来控制机器人的执行器，以完成任务需求，同时可以实现训练后的低层策略的高效迁移，为实现端到端的层次化深度学习提供了理论支持。

May, 2019