Nov, 2022
探索基于循环神经网络的计数行为的长期泛化能力
Exploring the Long-Term Generalization of Counting Behavior in RNNs
Nadine El-Naggar, Pranava Madhyastha, Tillman Weyde
TL;DR本研究探究了 LSTM、ReLU 和 GRU 模型在长序列计数任务的泛化能力,并发现虽然先前的理论工作已经建立了具有适当配置的 RELU 激活和 LSTM 的计数能力,但是 LSTM 模型在实验中仍无法学习到正确的计数行为,并且从验证损失及不同模型的失效方式等角度对问题进行了讨论。