Apr, 2022

基于技能的元强化学习

TL;DR本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法,以实现复杂、长期目标的快速解决,可以显著提高样本效率并减少与环境的交互次数。