Dec, 2018

深度强化学习下的行走学习

TL;DR本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法,用于学习独立于机器人动力学模型的实际机器人行走姿势,仅需要少量试验即可。实验结果表明,我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态,而不需要任何模型或仿真。同时,我们展现了本算法在单个较佳超参数上实现了最先进的性能,与环境中的适度变化相容。