Jun, 2019

扩大行动空间

TL;DR使用课程学习和跨行动空间的迁移学习来加速强化学习,通过限制其初始行动空间,同时为多个行动空间估算最优值函数,并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上,成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。