ICLRDec, 2021

使用广义策略更新构建迁移的良好行为基础

TL;DR本文提出了一种简单有效的算法,通过构建独立的策略集合,可以在不需要大量数据的情况下,在各种复杂的强化学习任务中实现高水平的性能表现,同时解决了基于线性特征函数的多个任务的奖励子问题,并应用于终身强化学习设置中。