Jun, 2023

不良习惯:强化学习中的政策混淆和轨迹外泛化

TL;DR在本文中,我们提供了对强化学习代理人的策略混淆现象的数学描述,并通过一系列示例展示了它何时发生以及如何发生。