Jul, 2023

保留网络:大型语言模型的转换器接班者

TL;DR本文提出了 RetNet 作为大型语言模型的基础架构,同时实现了训练并行性、低成本推理和良好的性能表现。通过理论推导,提出了序列建模的 retention 机制,支持三种计算模式,即并行、循环和分块循环,并在语言建模上取得了良好的结果。