Oct, 2020

在模型自信时相信模型:掩蔽模型基于演员 - 评论家算法

TL;DR本文提出一种新颖的基于模型 - actor-critic (M2AC) 算法,通过掩码机制依据模型的可信度来决定是否使用其预测,从而在连续控制基准测试中表现出较强的性能,相比最先进的方法有显著的优势。