ICMLMay, 2021

深度强化学习中的目标错泛化

TL;DR本文研究强化学习中的一种广义泛化失败 —— 目标错误泛化。在此类失败中,强化学习代理在越出分布的情况下保留其能力,但追求错误的目标。我们阐明了能力和目标泛化之间的差别,提供了目标错误泛化的第一次经验演示,并对其原因进行了部分表征。