Jun, 2023
RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$
Abhinav Bhatia, Samer B. Nashed, Shlomo Zilberstein
TL;DR本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。