Apr, 2020

多任务强化学习的引导潜在预测表示

TL;DR这篇论文介绍了一种基于多步预测表示未来观察结果的自监督表示学习算法 Prediction of Bootstrap Latents(PBL),它专注于捕捉与环境动态相关的结构信息,并在 DMLab-30 和 Atari-57 等多任务设置中实现了跨越式的性能提升。