Apr, 2018

使用状态和动作特征实现可扩展的双线性 $π$ 学习

TL;DR本文介绍了一种基于 Approximate linear programming (APL) 的算法 ——bilinear pi learning,在采样 oracle 下用于强化学习,并证明了它具有可扩展性、在线实时性和样本效率等多种优势。