Apr, 2024

径向网络:高性能大型语言模型的动态层路由

TL;DR大型语言模型在内存、延迟和能耗方面常常面临困难。本文探讨了层稀疏性的实用性,并描述了一种基于 Token 级路由的径像网络方法,以减少生成整个序列所需的计算资源,实现更大容量的网络并明显降低计算和服务成本。