ICLRJun, 2020

量化奖励函数的差异

TL;DR本文提出一种名为 EPIC 的距离度量方法,以量化两个奖励函数之间的区别,而不需要进行策略优化步骤,该距离具有不变性,可以高效地近似,并且能够有效地预测策略训练的成功,进而较好的限制最优策略的后悔