Apr, 2018
使用状态和动作特征实现可扩展的双线性 $π$ 学习
Scalable Bilinear $π$ Learning Using State and Action Features
Yichen Chen, Lihong Li, Mengdi Wang
TL;DR本文介绍了一种基于 Approximate linear programming (APL) 的算法 ——bilinear pi learning,在采样 oracle 下用于强化学习,并证明了它具有可扩展性、在线实时性和样本效率等多种优势。