Sep, 2021

元元强化学习中的回顾、预测重标记

TL;DR利用 Hindsight Foresight Relabeling 方法,将多任务强化学习中的 relabeling 概念扩展到元强化学习领域中,从而提高样本效率和渐近性能。