Oct, 2018

参数化深度 Q-Networks 学习:离散 - 连续混合动作空间增强学习

TL;DR在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。