Feb, 2015

从像素到力矩:利用深度动力学模型进行策略学习

TL;DR本研究解决了一个挑战性问题,即训练一个只使用像素信息来学习闭环控制的智能体。我们提出了一种数据高效且基于模型的增强学习算法,其中关键因素是一个深度动态模型,它使用深度自编码器来学习图像的低维嵌入,并结合在这个低维特征空间的预测模型来直接学习闭环策略。与现有的连续状态和动作的强化学习方法相比,我们的方法学习快速、可适应高维状态空间且可扩展性强,这是实现完全自主单从像素到扭矩的学习的重要一步。