Jul, 2015

使用连续内存状态学习深度神经网络策略

TL;DR通过内部记忆的方法,学习适用于高维连续系统(如机器人操纵器)的策略,通过把记忆状态加到系统的状态和动作空间中,使用有监督学习方法 Guided Policy Search 分解策略搜索问题,并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略