ICLRMay, 2019

使用感知器梯度学习程序化结构表示

TL;DR提出了一个新算法 ——perceptor gradients 算法,通过拆分代理策略的感知网络和任务编码程序,实现基于符号的数据表征的学习,可以高效地生成新的、具有语义含义的观测结果,并且可以直接应用于线性二次调节器(LQR)或通用 A * 规划器中。