Jun, 2023
RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$
TL;DR本文提出了一种RL$^3$算法,该算法将Task-specific action-values作为Traditional RL学到的输入,并通过将Traditional RL和Meta-RL组合来在Long-horizon和Out-of-distribution任务中获得更高的累积回报。