Nov, 2016

使用深度强化学习学习运动技能:行动空间选择的影响

TL;DR本文研究了用于高维状态描述的深度强化学习,并比较了不同的动作参数表示对学习难度、策略鲁棒性、运动质量和策略查询率的影响。从多个平面关节图形和多个步态的步态循环模仿任务的结果来看,本文表明较高级别的动作参数化所提供的本地反馈可以显著影响策略的学习、鲁棒性和质量。