ICLRAug, 2019

动态感知嵌入

TL;DR本文提出一种自监督表示学习方法,通过正向预测目标同时学习环境状态和动作序列的嵌入表示,以提高强化学习的采样效率和策略学习性能。研究表明,使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时,结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下,快速、高效地学习高质量的基于目标条件的连续控制策略。