Jun, 2023

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

TL;DR本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。