调节轨迹生成器的政策

Oct, 2019

Policies Modulating Trajectory Generators

Atil Iscen, Ken Caluwaerts, Jie Tan, Tingnan Zhang, Erwin Coumans...

TL;DR本文提出了一种利用简单策略调制轨迹生成器的体系结构，通过深度强化学习和进化策略学习出具有可控行为的四足机器人运动，实现了从 IMU 观测数据中控制速度的步态诱导。

Abstract

We propose an architecture for learning complex controllable behaviors by having simple Policies Modulate Trajectory Generators (PMTG), a powerful combination that can provide both memory and prior knowledge to the controller. The result is a flexible architecture that is applicable to

policy modulate trajectory generator deep reinforcement learning evolutionary strategies locomotion controllable behaviors

发现论文，激发创造

通过发现多样化的环境轨迹生成器先验知识高效学习运动技能

本文提出了一种使用 Quality-Diversity 算法学习多样化的专业动作先验的方法，称为进化环境轨迹生成器 (EETG)，并在一种名为 PMTG 的系统结构中维护单一策略，在测试中成功地通过不同的环境。

Oct, 2022

多种四足机器人的单一运动控制策略学习

通过从动物运动控制中获得灵感，我们展示了训练一种有效的单个运动策略，能够控制多样的四足机器人，该策略通过调节中央模式发生器（CPG）的频率和振幅来产生节奏输出，并将其映射到模式形成（PF）层，从而在不同机器人之间仅调整缩放参数以适应步幅高度和长度，我们还检验了此策略在 Unitree Go1 和 A1 机器人上的模拟到实际转移性能，甚至在增加相当于 A1 机器人额定质量的 125% 负载情况下仍然表现良好。

Oct, 2023

机器人运动的 DeepCPG 策略

本研究利用中央模式生成器（CPGs）构建深度强化学习的 DeepCPG 策略层来实现多腿机器人的行走行为，证明其在高维传感器空间中具有实验有效性，并进一步通过模块化机器人和多智能体深度强化学习的方法来推广其应用，展示了生物学原理所建立的更高智能系统的潜在革命性应用。

Feb, 2023

Sim-to-Real: 四足机器人学习敏捷运动

本文提出了一种利用深度强化学习技术自动化四足机器人运动设计过程的系统，能够从简单的奖励信号中学习四足运动，并可提供开环参考进行学习过程的控制，采用系统辨识来改进物理模拟器，利用物理环境随机与扰动设计控制器，并在物理模拟器中进行评估，成功在现实世界中部署。

Apr, 2018

基于结构化图模型和变压器的模型预测仿真

我们提出了一种基于 transformers 和概率图模型的多个相互作用代理（道路用户）轨迹模拟方法，并将其应用于 Waymo SimAgents 挑战。我们的方法基于 MTR 模型，使用先验知识编码因子来生成并改进轨迹预测，该模型通过执行高斯牛顿方法的（近似）最大后验推理来采样数十个代理的未来轨迹。我们的方法名为 “模型预测模拟”（MPS），在安全关键指标（如碰撞率）方面改进了 MTR 基线，并且与任何潜在预测模型兼容，不需要额外的训练。

Jun, 2024

走这些路：通过多重行为调整机器人控制以实现泛化

提出了一种结构化家族的行动策略来解决驱动训练任务和应对新任务，并发布了一个快速、稳健、开源的 MoB 行动控制器，“为 Walk These Ways”。

Dec, 2022

结合模型预测控制和预测强化学习实现稳定的四足机器人行走

本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题，并开发了一种融合了这两种方法的混合控制方法，其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度，并证明了我们的控制器在短时间内能够实现稳定步态，具有实时操作的能力。

Jul, 2023

通过转移模型学习连续控制策略

通过学习过渡模型，我们可以使用它来驱动摊销政策的学习。因此，我们重访了政策优化并描述了一个模块化神经网络架构，该架构从预测错误中同时学习了系统动力学和生成适当连续控制命令的随机策略，并通过与线性二次调节器的基线进行比较来评估模型。

Sep, 2022

DeepGait: 使用深度强化学习规划和控制四足步态

本文提出了一种新的神经网络政策训练技术，可用于在非平坦地形上的足式机器人的运动规划和控制。该方法结合了模型驱动的运动规划和强化学习的最新方法，并应用于一组包含挑战性地形场景的模拟测试中，证明了该方法的有效性。

Sep, 2019

通过相位引导控制器学习四足机器人的自由步态转换

本文提出了学习控制犬形四足机器人在各种步态下运动的框架，并通过强化学习算法解决了多任务学习的问题。使用四个独立的相位来描述步态发生器和控制策略之间的接口，使用该控制策略，黑豹四足机器人可以在自然环境下流畅、稳健地学习所有运动技能并遵循速度命令进行运动。

Jan, 2022