Mar, 2023

持续深度强化学习中的可塑性丧失

TL;DR探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性(non-stationarity)时,其所采用的策略的丧失学习能力现象,通过对不同维度条件下的实验结果,发现这种现象与网络中激活函数的稀疏性相关,本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。