Jun, 2022
有限训练任务下的元强化学习 —— 一种密度估计方法
Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach
Zohar Rimon, Aviv Tamar, Gilad Adler
TL;DR本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。