Jul, 2022

通过学习动机一致的内在回报自动设计奖励

TL;DR本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。