Jun, 2023

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

TL;DR本文提出了一种RL$^3$算法,该算法将Task-specific action-values作为Traditional RL学到的输入,并通过将Traditional RL和Meta-RL组合来在Long-horizon和Out-of-distribution任务中获得更高的累积回报。