Oct, 2016

路径积分导向的策略搜索

TL;DR本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法,该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务,该方法在使用先前的技术基础上进行了改进,使用了基于 PI2 的无模型本地优化器和使用 on-policy 抽样来训练针对一系列任务实例的复合全局策略,从而实现了直接从视觉输入执行扭矩控制的深度神经网络策略。