Feb, 2024

Griffin:将门控线性循环与局部注意力相融合的高效语言模型

TL;DR基于门控线性递归的 Hawk 和将门控线性递归与局部注意力相结合的混合模型 Griffin 在效率方面超过了 Mamba 和 Llama-2,在训练和推理阶段都具有更高的硬件效率,并且可以有效地进行分布式训练。