Nov, 2021

标量奖励不足够:对Silver、Singh、Precup和Sutton(2021)的回应

TL;DR该论文提出了奖励最大化是所有智能的基础,但我们认为标量奖励无法解释生物和计算智能的某些方面,因此应采用显式的多目标奖励模型,并且即使标量奖励可以触发智能行为,也应避免使用这种方法来开发人工通用智能,因为会存在不安全或不道德的行为风险。