Jul, 2017

强化学习智能体教学的学习

TL;DR本文研究了在预算下动作建议的转移学习模型。我们关注于在有限建议预算下,强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。第一,我们研究了影响此设置下建议质量的几个关键因素,例如教师的平均表现,其方差以及奖励折现在建议中的重要性。实验表明,变异系数 (CV) 作为选择生成建议策略的统计量具有重要的非平凡意义。第二,本文研究了在预算下分配建议的策略学习。虽然相关文献中大多数方法都依赖于启发式方法进行建议分配,但我们将问题进行学习,并提出了一种新的强化学习算法,该算法能够学习何时提供建议,适应于学生和手头的任务。此外,我们认为在预算下学习建议是一个更通用的学习问题的例子:受限开发强化学习。