Apr, 2018

使用强化学习和课程迁移学习进行星际争霸微观管理

TL;DR本文提出了一种强化学习和课程迁移学习方法,用于在StarCraft的微观管理中控制多个单位。通过定义高效的状态表示,并采用参数共享多智能体梯度下降Sarsa算法,使用神经网络作为函数逼近器来评估动作价值函数,建立奖励函数,使用迁移学习方法将模型推广到更具挑战性的情境,并鼓励协作行为,成功地在小规模情境中将内置AI击败。在大规模情境中,使用课程迁移学习方法逐步训练一组单位,并在目标情境中显示出优越的性能。