Nov, 2022

探索基于循环神经网络的计数行为的长期泛化能力

TL;DR本研究探究了LSTM、ReLU和GRU模型在长序列计数任务的泛化能力,并发现虽然先前的理论工作已经建立了具有适当配置的RELU激活和LSTM的计数能力,但是LSTM模型在实验中仍无法学习到正确的计数行为,并且从验证损失及不同模型的失效方式等角度对问题进行了讨论。