ICMLJun, 2012

学习参数化技能

TL;DR本文介绍了一种方法来构建能够解决一系列参数化强化学习问题的技能,并对具有参数化目标的受控机械臂的案例进行了评估。该方法从感兴趣的任务分布中提取示例任务,并使用相应学习策略来估计技能策略所在的低维分段平滑流形的拓扑结构。这个流形模型展示了策略参数随任务参数变化的方式,本方法确定了组成流形的图表数量,并在每个图表中应用非线性回归来构建参数化技能,以预测策略参数与任务参数之间的关系。