Jun, 2022

有限训练任务下的元强化学习 —— 一种密度估计方法

TL;DR本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。