Oct, 2020

逻辑回归 Q-Learning

TL;DR本研究提出了一种基于正则化线性规划的强化学习算法 QREPS,相对于相似的 REPS 算法增加了 Q - 函数来实现无模型训练,并提供了一种策略评估的凸损失函数来替代传统的平方 Bellman 误差,同时提供了一种实用的最小化损失函数的鞍点优化方法,最终证明了我们算法在一些基准问题上的有效性。