Feb, 2017

具有深度能量策略的强化学习

TL;DR提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。