Nov, 2019

基于深度模型的强化学习:通过估计不确定性和保守策略优化

TL;DR这篇论文提出了一种新的基于模型不确定性的政策优化方法 POMBU,通过利用 Q 值的不确定性,可以有效提高渐近性能并提高样本效率,并通过保守的优化算法实现鲁棒性。实验证明,POMBU 在样本效率和渐近性能方面优于现有的最先进的算法,并且相对于以前的基于模型的方法具有很好的鲁棒性。