ICLRNov, 2016

RL$^2$: 快速增强学习通过慢增强学习

TL;DR通过将强化学习算法 RL^2 表示为递归神经网络并从数据中学习,我们提出了一种方法来尝试理解替代动物的快速学习过程。我们在具有优化性能保证的情况下评估了 RL^2 的性能,并证明它适用于高维问题。