元策略优化学习快速适应
本研究探讨如何从先前的经验中学习探索策略,并介绍了一种新的基于梯度的快速自适应算法(MAESN)来学习从先前任务中发现的探索策略。该方法相比先前的元RL、RL无学习的探索策略和任务不可知的探索方法更加有效,并在模拟任务中进行了评估。
Feb, 2018
本研究旨在提出一种模型基础的强化学习元学习方法,以在明显减少样本数量的情况下实现机器人在线适应新任务,并证明该方法在模拟和实际机器人中的有效性。
Mar, 2018
本文提出了基于曲库的在线学习方法,通过与不同情境下的行为库匹配确定最优策略,取得了比 Reset-free Trial and Error 及其他传统的单曲库方法更快更高效的学习效果,并在机器人的编程中得到了实际应用。
Jul, 2019
本论文提出了一种基于元学习的方法,在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时,训练机器人智能体以适应各种动态条件,以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后,在KUKA LBR 4+机器人上应用此策略,并在将曲棍球击向目标的任务中评估其性能。实验结果表明,与基准表现相比,这种方法具有更一致和稳定的域适应性,从而获得了更好的整体性能。
Sep, 2019
本文提出了一种适用于机器人的新的元学习方法,结合了基于演化策略的元学习和更具噪声容忍度的Batch Hill-Climbing适应算子,显著提高了机器人在高噪声环境下的动态变化适应能力。在测试时,我们的方法比基于梯度的方法性能更好,使机器人能够在不到3分钟的实际数据基础上适应变化。
Mar, 2020
提出了一种名为FAMLE的元学习算法,通过元训练多个起始点来适应不同的机器人动力学,从而在少量数据点的情况下,使机器人能够选择最适合的起始点以适应当前的情况。在模拟和真实的机器人任务中,FAMLE相对于基线算法可以更快适应新的损伤。
Mar, 2020
本文提出了一种基于模型无关元强化学习的设计优化框架,以及其应用于四足机器人运动学和执行器参数优化的方法,结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪,而且相比于基于模型的基准线方法,我们的方法不受预定义动作或步态模式的约束,能够提供更高的性能。
Oct, 2022
Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.
Jun, 2024
本文针对四足机器人在动态环境中的策略适应问题,提出了一种名为LoopSR的终身政策适应框架。通过利用基于变压器的编码器将真实世界轨迹投影到潜在空间,并在模拟中重建真实环境,从而显著提高了数据效率,使得策略在模拟到现实的应用中表现卓越。
Sep, 2024