May, 2019
MCP:利用乘法组合策略学习可组合的层次控制
MCP: Learning Composable Hierarchical Control with Multiplicative
Compositional Policies
TL;DR本研究提出了一种用于学习可重复使用的运动技能并将其组合为复杂行为的方法,该方法称为“可组合的原语”,可以将代理人的技能分解为基本元素,这些基本元素可以通过乘法组合同时激活,从而使基本元素能够相互传输和重组,以适应新任务的需要,并演示了该方法在模拟环境中提取可组合的技能并重用这些技能来解决连续控制任务的能力。