Oct, 2024

我们还需要RNN吗?

TL;DR本研究针对Transformer在序列长度上的可扩展性限制,重新审视传统的循环神经网络(RNNs),尤其是LSTM和GRU。通过去除隐藏状态依赖性,提出了简化版本(minLSTMs和minGRUs),不仅参数显著减少,还能高效地进行并行训练,其性能与近期模型相当,表明传统RNN仍具备潜在价值。