Nov, 2022

探索基于循环神经网络的计数行为的长期泛化能力

TL;DR本研究探究了 LSTM、ReLU 和 GRU 模型在长序列计数任务的泛化能力,并发现虽然先前的理论工作已经建立了具有适当配置的 RELU 激活和 LSTM 的计数能力,但是 LSTM 模型在实验中仍无法学习到正确的计数行为,并且从验证损失及不同模型的失效方式等角度对问题进行了讨论。