BriefGPT.xyz
Nov, 2022
探索基于循环神经网络的计数行为的长期泛化能力
Exploring the Long-Term Generalization of Counting Behavior in RNNs
HTML
PDF
Nadine El-Naggar, Pranava Madhyastha, Tillman Weyde
TL;DR
本研究探究了LSTM、ReLU和GRU模型在长序列计数任务的泛化能力,并发现虽然先前的理论工作已经建立了具有适当配置的RELU激活和LSTM的计数能力,但是LSTM模型在实验中仍无法学习到正确的计数行为,并且从验证损失及不同模型的失效方式等角度对问题进行了讨论。
Abstract
In this study, we investigate the generalization of
lstm
,
relu
and
gru
models on
→