元策略优化学习快速适应

Sep, 2019

Learning Fast Adaptation with Meta Strategy Optimization

Wenhao Yu, Jie Tan, Yunfei Bai, Erwin Coumans, Sehoon Ha

TL;DR该研究使用元学习算法，利用潜在变量输入训练策略，实现快速适应新场景的机器人大腿行走能力，并在真实和模拟实验中证明了该方法在适应新任务方面优于之前的方法。

Abstract

The ability to walk in new scenarios is a key milestone on the path toward real-world applications of legged robots. In this work, we introduce Meta Strategy Optimization, a meta-learning algorithm for training p

发现论文，激发创造

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元RL、RL无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

机器人中基于曲库的在线自适应的自适应优先级选择

本文提出了基于曲库的在线学习方法，通过与不同情境下的行为库匹配确定最优策略，取得了比 Reset-free Trial and Error 及其他传统的单曲库方法更快更高效的学习效果，并在机器人的编程中得到了实际应用。

Jul, 2019

元强化学习在模拟到真实领域适应中的应用

本论文提出了一种基于元学习的方法，在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时，训练机器人智能体以适应各种动态条件，以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后，在KUKA LBR 4+机器人上应用此策略，并在将曲棍球击向目标的任务中评估其性能。实验结果表明，与基准表现相比，这种方法具有更一致和稳定的域适应性，从而获得了更好的整体性能。

Sep, 2019

通过进化元学习快速适应的腿式机器人

本文提出了一种适用于机器人的新的元学习方法，结合了基于演化策略的元学习和更具噪声容忍度的Batch Hill-Climbing适应算子，显著提高了机器人在高噪声环境下的动态变化适应能力。在测试时，我们的方法比基于梯度的方法性能更好，使机器人能够在不到3分钟的实际数据基础上适应变化。

Mar, 2020

机器人快速在线适应通过模拟先验元学习嵌入

提出了一种名为FAMLE的元学习算法，通过元训练多个起始点来适应不同的机器人动力学，从而在少量数据点的情况下，使机器人能够选择最适合的起始点以适应当前的情况。在模拟和真实的机器人任务中，FAMLE相对于基线算法可以更快适应新的损伤。

Mar, 2020

通过模仿动物学习敏捷机器人运动技能

本研究提出了一种基于模仿学习的系统，使机器人可以通过模仿真实世界的动物学习敏捷的运动技能，并演示了该系统的有效性。

Apr, 2020

基于元强化学习的腿式机器人最优设计

本文提出了一种基于模型无关元强化学习的设计优化框架，以及其应用于四足机器人运动学和执行器参数优化的方法，结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪，而且相比于基于模型的基准线方法，我们的方法不受预定义动作或步态模式的约束，能够提供更高的性能。

Oct, 2022

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

LoopSR: 循环模拟与现实在四足机器人终身策略适应中的应用

本文针对四足机器人在动态环境中的策略适应问题，提出了一种名为LoopSR的终身政策适应框架。通过利用基于变压器的编码器将真实世界轨迹投影到潜在空间，并在模拟中重建真实环境，从而显著提高了数据效率，使得策略在模拟到现实的应用中表现卓越。

Sep, 2024