Jan, 2024

环境临近目标培训的意想不到的收获

TL;DR通过添加可量化的参数噪声到训练的转移函数中,在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中,包括 PacMan、Pong 和 Breakout,通过在替代的噪声设置下训练代理能获得较好的结果。