BriefGPT.xyz
Jun, 2022
有限训练任务下的元强化学习——一种密度估计方法
Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach
HTML
PDF
Zohar Rimon, Aviv Tamar, Gilad Adler
TL;DR
本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。
Abstract
In
meta reinforcement learning
(meta RL), an agent learns from a set of
training tasks
how to quickly solve a new task, drawn from the same task distribution. The optimal meta RL policy, a.k.a. the Bayes-optimal
→