Mar, 2021

线性函数逼近的谨慎乐观策略优化与探索

TL;DR本文提出了一种改进版的 COPOE 算法,克服 Policy optimization 方法在采样复杂度方面的问题,同时保留它对模型不当规格化的鲁棒性。