Jun, 2021

为数据高效的强化学习预训练表示

TL;DR利用未标记数据预先训练编码器,然后在少量任务特定数据上微调,通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面,该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能