Dec, 2023

强化学习中的颜色对形状目标误泛化:一项案例研究

TL;DR探讨了 Di Langosco 等人在 Procgen Maze 环境中最初展示出的颜色与形状目标错误泛化,即在一个模棱两可的选择中,代理人似乎更喜欢基于颜色而不是形状的泛化。训练了 1000 多个代理并在超过 1000 万个回合中对其进行评估后,我们得出结论,该行为可以归因于代理通过特定的颜色通道来学习检测目标物体,而这个选择是随意的。此外,我们展示了由于欠指定性,在除了使用不同的随机种子进行训练运行之外,重新训练代理会导致偏好的改变。最后,我们通过仅仅使用训练的随机种子,展示了在培训外的行为中存在离群值。