Feb, 2020

面向策略梯度方法的策略感知模型学习

TL;DR本文研究了模型基强化学习中模型的学习,提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型, 结果证明该方法在某些基准问题上表现良好。