ICMLJan, 2019

使用后继特征和泛化策略改进的深度强化学习转移

TL;DR本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设,实现从一组任务到另一组任务的优雅而健壮的技能迁移方法,并在一个复杂的三维环境下进行了实证验证。