IJCAIApr, 2016

强化学习中多位教师提供理论基础的政策建议及其在负迁移中的应用

TL;DR通过多个代理老师的建议,介绍了一种自主探索和老师建议结合的算法,并量化了负面迁移可能发生的情况。