不仅有奖励还有约束：应用于四肢机器人的运动

Aug, 2023

不仅有奖励还有约束：应用于四肢机器人的运动

Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion

Yunho Kim, Hyunsik Oh, Jeonghyun Lee, Jinhyeok Choi, Gwanghyeon Ji...

TL;DR通过提出一种新颖的深度强化学习框架，我们展示了可用于训练复杂机器人系统的神经网络控制器，该框架通过引入约束条件减少了奖励工程的工作量，并实现了较高的任务绩效。

Abstract

Several earlier studies have shown impressive control performance in complex robotic systems by designing the controller using a neural network and training it with model-free reinforcement learning. However, the

neural network reinforcement learning complex robotic systems constraints reward engineering

发现论文，激发创造

继续学习的腿式机器人：在现实世界中微调运动策略

该论文提出了一种基于强化学习的实际机器人强化学习系统，通过在现实世界中微调机器人运动策略的少量训练，实现了 A1 四足机器人在多种环境中自主微调多种运动技能的能力。

Oct, 2021

学习四肢机器人灵活动态技能

通过在仿真中训练神经网络策略并将其转移到现实的四足动态平衡系统，研究创造了一种快速、自动且高效的数据生成方案，从而实现了在四足机器人技能方面的进一步提升。

Jan, 2019

四足行走安全强化学习

本文提出了一种安全的强化学习框架，用于设计控制策略，以确保腿部运动的安全，同时利用无模型的强化学习进行学习任务。在此框架基础上，本文进行了四项步态运动实验，并实现了显著的提升，包括节能、稳定性和动作变化。

Mar, 2022

通过经验转移学习和适应敏捷运动技能

这篇论文研究了如何用增强学习算法训练四肢机器人在复杂环境中实现高速奔跑、跳跃、走路到目的地等多种复杂技能，并且通过从已有的控制器中借鉴经验，解决了机器人探索新环境时的困难，实现了四肢机器人在现实环境中优雅且安全的部署。

Apr, 2023

四足机器人数据有效强化学习

本文提出了一种基于模型的机器人运动框架，在只采集 4.5 分钟（45,000 个控制步骤）的四足机器人数据的基础上实现了步行，通过引入跟踪多个时间步长上的模型预测的损失函数来准确地建模机器人的动力学，使学习到的模型可以进行实时控制，此方法比当前的无模型方法在样本效率上提高了一个数量级以上。

Jul, 2019

基于元强化学习的腿式机器人最优设计

本文提出了一种基于模型无关元强化学习的设计优化框架，以及其应用于四足机器人运动学和执行器参数优化的方法，结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪，而且相比于基于模型的基准线方法，我们的方法不受预定义动作或步态模式的约束，能够提供更高的性能。

Oct, 2022

最小人力学习在现实世界中行走

使用深度强化学习中的多任务学习技术和安全控制框架在实际机器人系统中实现了自动学习四条腿机器人在三种不同地形上的步态。

Feb, 2020

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

在受限的三维空间中运用强化学习实现灵巧的腿部步行动力学

使用深度強化學習的運動控制器在克服具挑戰性的地形（如崎嶇的岩石、不規則的地面和滑溜的表面）上取得了令人印象深刻的快速和穩健的運動方面的最近突破。但是，相對較少的研究投入到透過狹窄隧道或不規則空洞等局限的 3D 空間中的腿部移動性，這些地方會強加整體限制。因此，我們提議從目標導向的過程中學習在局限的 3D 空間中的運動技能。通過將傳統計劃師負責規劃到達遠處全球目標位置的路徑點與透過生成低層運動指令來跟隨這些路徑點的基於 RL 的策略結合，我們引入一種層次化的運動控制器來解決跟踪遠處導航目標的低效問題。在模擬中，我們的層次化方法成功地在具有挑戰性的局限的 3D 環境中導航，優於純粹的端到端學習方法和參數化的運動技能。我們還展示了在真實機器人上成功部署我們在模擬中訓練的控制器。

Mar, 2024

为实现稳健高效的腿式运动而学习接触自适应控制器

本研究提出了一个层次框架，将基于模型的控制和强化学习相结合，为四足动物（Unitree Laikago）合成鲁棒控制器。通过学习选择一套原语响应环境中的变化，使其适应复杂的环境变化，并具有更高的能源效率和更强的鲁棒性。

Sep, 2020