Jan, 2024

Transformer 是多状态循环神经网络

TL;DR通过实验证明,解码器 - 只转换器实际上可以被概念化为无限多状态的循环神经网络(RNN)的一种变体,而预训练转换器可以通过固定隐藏状态的大小转换为有限多状态的 RNN。我们引入了一种简单的转换策略 TOVA,实验证明 TOVA 在长距离任务中优于其他基准策略,与完整(无限)模型几乎持平,并且在某些情况下只使用原始缓存大小的 1/8。此研究结果表明,转换器解码器语言模型在实践中常表现为 RNN,并提供了减轻其最痛苦的计算瓶颈之一(缓存内存大小)的选择。