Apr, 2021

自动驾驶奖励(误)设计

TL;DR本文旨在解决奖励设计过程中常见误区的问题,提出了 8 项简单的方法来鉴别奖励函数的缺陷,并对强化学习中的自动驾驶任务的奖励函数进行了分析,揭示了奖励设计的普遍缺陷。最后,探讨了自适应奖励函数设计的可能方向。