Jan, 2022

实践中是否需要熵奖励?

TL;DR本文研究熵作为内在奖励的效果,并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家(SAC)中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估,并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此,我们建议要么将熵奖励归一化为零平均值(SACZero),要么仅仅从策略评估中删除它(SACLite)以获得更好的实际结果。