Nov, 2022

奖励预测聚类

TL;DR通过聚类算法,构建奖励预测深度网络所需的状态抽象,加速高维可视控制任务的学习并实现通过预先训练的奖励预测表示网络在不重新训练的情况下加速学习的系统性跨分布传递。