学习技能组合

NIPSNov, 2017

Learning to Compose Skills

Himanshu Sahni, Saurabh Kumar, Farhan Tejani, Charles Isbell

TL;DR该研究提出了一种可微分的框架，能够学习一种称之为技能的简单策略的广泛组合。通过不断地递归地将技能与自身组合，我们可以创建表现出复杂行为的层次结构。实验结果表明，该架构可以快速从简单技能中构建复杂技能，并对看似没有联系的技能组合进行零 Shot 泛化。

Abstract

We present a differentiable framework capable of learning a wide variety of compositions of simple policies that we call skills. By recursively composing skills with themselves, we can create hierarchies that display complex behavior. →

differentiable framework skill networks hierarchical behavior policy learning zero-shot generalizations

发现论文，激发创造

使用深度强化学习组合无关任务的策略

本文介绍了一种基于深度强化学习的技能转移和组合方法，该方法将智能体的原始策略应用到解决未知任务中，并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。

May, 2019

控制任务组合泛化的策略架构

该研究提出了一种基于任务实体组成结构的框架和适当的策略设计，旨在解决通过目标配置来规范控制、机器人和规划的任务，此策略运用 Deep Sets 和 Self Attention 等结构，在模拟机器人操作任务的训练中，成功率更高且泛化能力更强。

Mar, 2022

使用组合策略学习遵循语言指令

提出了一种基于强化学习和 seq2seq 模型的自然语言指令执行框架，利用布尔代数、组合价值函数和语言表示等技术，大大减少学习新任务的样本复杂度，实验中发现组合价值函数和语言表示的结合使得 agent 能够快速推广到新任务。

Oct, 2021

MCP：利用乘法组合策略学习可组合的层次控制

本研究提出了一种用于学习可重复使用的运动技能并将其组合为复杂行为的方法，该方法称为 “可组合的原语”，可以将代理人的技能分解为基本元素，这些基本元素可以通过乘法组合同时激活，从而使基本元素能够相互传输和重组，以适应新任务的需要，并演示了该方法在模拟环境中提取可组合的技能并重用这些技能来解决连续控制任务的能力。

May, 2019

功能组合结构的终身机器学习

这篇论文提出了一种通用的学习框架，用于终身学习功能本质组合结构，分别研究了有监督学习和强化学习的应用，同时拓展到了非静态环境下。在评估实验中，展示了这种框架的优越性，取得了较好的效果。

Jul, 2022

学习参数化技能

本文介绍了一种方法来构建能够解决一系列参数化强化学习问题的技能，并对具有参数化目标的受控机械臂的案例进行了评估。该方法从感兴趣的任务分布中提取示例任务，并使用相应学习策略来估计技能策略所在的低维分段平滑流形的拓扑结构。这个流形模型展示了策略参数随任务参数变化的方式，本方法确定了组成流形的图表数量，并在每个图表中应用非线性回归来构建参数化技能，以预测策略参数与任务参数之间的关系。

Jun, 2012

人类和机器的功能组合学习

在研究中，我们通过探索人类和神经网络模型在学习和推理组合函数方面的能力，发现人类能够在不同的交互条件下对视觉函数组合进行零样本泛化，比较同一任务中的神经网络模型发现，通过元学习组合性（MLC）方法，标准序列到序列的转换器能够模仿人类在函数组合中的泛化模式。

Mar, 2024

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

高效探索的层次化技能

本文介绍了一种新的分层技能学习框架，利用无监督学习获得不同复杂度的技能，并自动权衡技能的通用性和特定性，用于动态任务，并表明这种方法产生比现有方法更好的结果。

Oct, 2021

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017