学习技能组合
本文介绍了一种基于深度强化学习的技能转移和组合方法,该方法将智能体的原始策略应用到解决未知任务中,并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。
May, 2019
该研究提出了一种基于任务实体组成结构的框架和适当的策略设计,旨在解决通过目标配置来规范控制、机器人和规划的任务,此策略运用 Deep Sets 和 Self Attention 等结构,在模拟机器人操作任务的训练中,成功率更高且泛化能力更强。
Mar, 2022
提出了一种基于强化学习和 seq2seq 模型的自然语言指令执行框架,利用布尔代数、组合价值函数和语言表示等技术,大大减少学习新任务的样本复杂度,实验中发现组合价值函数和语言表示的结合使得 agent 能够快速推广到新任务。
Oct, 2021
本研究提出了一种用于学习可重复使用的运动技能并将其组合为复杂行为的方法,该方法称为 “可组合的原语”,可以将代理人的技能分解为基本元素,这些基本元素可以通过乘法组合同时激活,从而使基本元素能够相互传输和重组,以适应新任务的需要,并演示了该方法在模拟环境中提取可组合的技能并重用这些技能来解决连续控制任务的能力。
May, 2019
这篇论文提出了一种通用的学习框架,用于终身学习功能本质组合结构,分别研究了有监督学习和强化学习的应用,同时拓展到了非静态环境下。在评估实验中,展示了这种框架的优越性,取得了较好的效果。
Jul, 2022
本文介绍了一种方法来构建能够解决一系列参数化强化学习问题的技能,并对具有参数化目标的受控机械臂的案例进行了评估。该方法从感兴趣的任务分布中提取示例任务,并使用相应学习策略来估计技能策略所在的低维分段平滑流形的拓扑结构。这个流形模型展示了策略参数随任务参数变化的方式,本方法确定了组成流形的图表数量,并在每个图表中应用非线性回归来构建参数化技能,以预测策略参数与任务参数之间的关系。
Jun, 2012
在研究中,我们通过探索人类和神经网络模型在学习和推理组合函数方面的能力,发现人类能够在不同的交互条件下对视觉函数组合进行零样本泛化,比较同一任务中的神经网络模型发现,通过元学习组合性(MLC)方法,标准序列到序列的转换器能够模仿人类在函数组合中的泛化模式。
Mar, 2024
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017