本文介绍了一种方法来构建能够解决一系列参数化强化学习问题的技能,并对具有参数化目标的受控机械臂的案例进行了评估。该方法从感兴趣的任务分布中提取示例任务,并使用相应学习策略来估计技能策略所在的低维分段平滑流形的拓扑结构。这个流形模型展示了策略参数随任务参数变化的方式,本方法确定了组成流形的图表数量,并在每个图表中应用非线性回归来构建参数化技能,以预测策略参数与任务参数之间的关系。
Jun, 2012
本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法,以实现复杂、长期目标的快速解决,可以显著提高样本效率并减少与环境的交互次数。
Apr, 2022
机器人通过序列化参数化技能来有效决策复杂的、长期的任务。我们提出了一种自主学习方法,通过评估每个技能的能力预测在任务中的能力,并通过能力感知规划将技能应用于任务分布。通过在仿真和现实世界中的实验,我们发现这种方法比其他基线方法能更加高效地学习有效的参数策略。
Feb, 2024
本文提出了一种元学习方法,通过使用共享的基元,改进对未见过任务样本的样本效率,并提供了衡量其效果的具体指标;同时,通过重置任务特定策略并使用任何现成的强化学习方法,我们实现了这一方法的端到端解决方案,成功地在用四条腿的机器人互动的迷宫分布中发现了有意义的运动原语,并且将原语应用于解决长时间尺度的稀疏奖励障碍航线问题,从而使三维人形机器人能够稳健地行走和爬行。
Oct, 2017
利用参数化空间随机生成简单元元强化学习任务,覆盖许多已知的任务,并能对二维拓扑任务进行扩展。作者描述了几个随机生成的元元强化学习任务,并讨论相关问题。
Feb, 2023
我们提出了一种从专家示范中发现技能的算法,该算法首先利用大型语言模型对轨迹进行初步分割,然后采用层次变分推理框架结合语言模型生成的分割信息,通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡,我们引入了一种基于最小描述长度原则的新辅助目标,有助于指导这一技能发现过程。我们的结果表明,使用我们的方法装备的代理能够发现有助于加速学习的技能,并在 BabyAI(一个网格世界导航环境)以及 ALFRED(一个家庭仿真环境)的新长期任务中胜过基线技能学习方法。
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
Jun, 2023
本篇研究论文中提出一种基于高级技能效应模型的任务规划方法,从而使得机器人能够在现实场景中获取新技能并解决新任务,实现了灵活的技能参数化和任务规定,使得机器人能够实现终身学习。同时,实验表明,这种规划方法能够以更低的成本策略找到新的任务。
Sep, 2021
本文提出了一种新的元强化学习算法,称为 Meta Goal-generation for Hierarchical RL (MGHRL),通过学习给定过去经验的高层次元策略来生成子目标,而将如何实现子目标留给独立的强化学习子任务来完成,实验结果表明,该算法可以更有效地从过去的经验进行元学习。
Sep, 2019
本论文提出了一种基于元学习的方法,在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时,训练机器人智能体以适应各种动态条件,以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后,在 KUKA LBR 4 + 机器人上应用此策略,并在将曲棍球击向目标的任务中评估其性能。实验结果表明,与基准表现相比,这种方法具有更一致和稳定的域适应性,从而获得了更好的整体性能。