Oct, 2022

通过生成和测试发现辅助任务

TL;DR本文介绍了一种基于表示学习思想的强化学习辅助任务发现方法,通过不断生成新的辅助任务并保留具有较高效用性的任务来提高数据效率,并引入了一种反映辅助任务效用的衡量标准。实现的算法在多种环境下显著优于随机任务和手动设计的任务。