实践造就完美：学习技能参数策略的规划

Feb, 2024

实践造就完美：学习技能参数策略的规划

Practice Makes Perfect: Planning to Learn Skill Parameter Policies

Nishanth Kumar, Tom Silver, Willie McClinton, Linfeng Zhao, Stephen Proulx...

TL;DR机器人通过序列化参数化技能来有效决策复杂的、长期的任务。我们提出了一种自主学习方法，通过评估每个技能的能力预测在任务中的能力，并通过能力感知规划将技能应用于任务分布。通过在仿真和现实世界中的实验，我们发现这种方法比其他基线方法能更加高效地学习有效的参数策略。

Abstract

One promising approach towards effective robot decision making in complex, long-horizon tasks is to sequence together parameterized skills. We consider a setting where a robot is initially equipped with (1) a lib

robot decision making parameterized skills active learning competence-aware planning autonomous practice

发现论文，激发创造

学习参数化技能

本文介绍了一种方法来构建能够解决一系列参数化强化学习问题的技能，并对具有参数化目标的受控机械臂的案例进行了评估。该方法从感兴趣的任务分布中提取示例任务，并使用相应学习策略来估计技能策略所在的低维分段平滑流形的拓扑结构。这个流形模型展示了策略参数随任务参数变化的方式，本方法确定了组成流形的图表数量，并在每个图表中应用非线性回归来构建参数化技能，以预测策略参数与任务参数之间的关系。

Jun, 2012

基于搜索的任务规划与学习技能效果模型的终身机器人操作

本篇研究论文中提出一种基于高级技能效应模型的任务规划方法，从而使得机器人能够在现实场景中获取新技能并解决新任务，实现了灵活的技能参数化和任务规定，使得机器人能够实现终身学习。同时，实验表明，这种规划方法能够以更低的成本策略找到新的任务。

Sep, 2021

元学习参数化技能

本研究提出了一种新的参数化技能学习算法，此算法可以学习可转移的参数化技能并将其综合到新的行动空间中，从而支持长视深远任务的高效学习。经实证表明，这种方法可以使代理人解决一组困难的长视深远任务。

Jun, 2022

学习机器人技能组合模型，用于任务和动作规划

该研究旨在通过学习使用感知运动基元来解决复杂的长期规划操作问题，其需要将基本技能组合成新的技能来推广应用于广泛的问题中，同时使用高效的主动学习和采样方法，将学习和规划方法结合来规划各种复杂的动态操作任务。

Jun, 2020

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

使用参数化操作基元学习外在灵巧性

通过学习层次化强化学习，我们能够利用环境改变目标物体的姿态，无需物体检测、姿态估计或手动设计控制器，从而成功地完成 98% 的实验任务。

Oct, 2023

基于参数化技能和先验知识的自动驾驶高效强化学习

ASAP-RL 提出了一种基于动作技能和专家先验知识的自动驾驶高效强化学习算法，旨在应对在复杂的拥堵道路条件下，传统驾驶策略难以扩展的问题。实验结果表明，相对于其他应用不同技能和先验知识的方法，该算法能够提高学习效率和驾驶性能。

May, 2023

从离线数据提取可转移机器人技能的高效策略学习

使用预训练的视觉语言模型从离线数据中提取一组离散的语义相关技能，无需人工监督，通过参数化连续参数，使机器人能够学习新任务并提高样本效率和性能表现。

Jun, 2024

探索和转移的潜在技能规划

该研究探讨了将学习到的世界模型和技能集成到单个强化学习代理中以快速适应新任务的方法，并在一系列具有挑战性的运动任务中展示了在单个任务和从一个任务到另一个任务的转移中改善了样本效率。

Nov, 2020